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收藏 ShowMeAlI 查 看 更 多 精彩 内 容 


1. 大 效 据 的 育 景 


随 着 互联 网 高 速 发 展 ， 网 络 数据 呈现 出 指数 级 别 的 
快速 增长 ， 企 业 应 用 需要 处 理 的 数据 量 也 变 得 非常 
巨大 ， 轻 松 达 到 了 TB、PB 甚 至 EB、ZB 级 别 ， 需 要 
巨型 存储 空间 进行 存储 。 而 对 这 些 数 据 进行 处 理 和 
分 析 挖 掘 ， 仅 仅 使 用 单机 处 理 已 经 无 法 完成 ， 这 个 
大 背景 下 ， 针 对 海量 数据 处 理 的 大 数据 解决 方案 应 
运 而 生 。ShowMeAI 和 将 在 接 下 来 的 内 容 中 逐步 展开 
讲解 大 数据 生态 工具 的 应 用 ， 以 及 大 数据 的 处 理 分 
析 挖 掘 方法 。 


以 下 几 点 ， 更 详细 地 介绍 了 大 数据 技术 的 相关 历史 
和 背景 。 
1 ) 第 三 次 信息 化 痕 潮 


根据 IBM 前 首席 执行 官 郭 士 纳 的 观点 ，IT 领 域 每 隔 
十 五 年 就 会 迎 来 一 次 重大 变革 。 


大 数据 的 背景 
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2 ) 数据 量 飞 速 增 长 
移动 互联 网 时 代 ， 产 生 大 量 的 数据 。 
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3 ) 存储 价格 随时 间 变 化 
硬件 存储 价格 随 科技 发 展 逐 年 不 断 下 降 。 
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4 ) 数据 产生 方式 的 变革 


大 数据 的 兴起 也 跟 数 据 产生 方式 的 变化 有 关 ， 数 据 
产生 方式 的 变革 促成 大 数据 时 代 的 来 临 
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大 数据 的 背景 数据 库 的 出 现 降低 了 数据 爆发 产生 二 感知 式 系统 的 。 
数据 管理 的 复杂 度 web2.0 时 人 广泛 使 用 ( 现 阶段 ) 也 
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2. 大 效 据 的 发 展 历 史 


下 面 我 们 来 看 看 大 数据 的 发 展 历 史 。 


1 ) 大 数据 的 发 展 历 程 
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2 ) 大 数据 的 概念 


大 数据 不 仅 是 数据 的 “大 量化 ”， 而且 包 含 快 速 
化 ”多样 化 “价值 化 "等 多 重 属 性 。 
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大 数据 的 发 展 历史 


大 量 数据 通过 互联 在 秒 级 时 间 范 围 内 数据 的 途径 多 样 价值 密度 低 


网 汇聚 到 特定 地 点 给 出 分 析 结果 - 英 构 多 样 完成 数据 “提纯 
人 得 喜 | 徽 售 ShowMeAl 研 究 中 心 | 
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(1 ) 大 量化 Volume 


大 数据 摩尔 定律 : 数据 一 直 都 在 以 每 年 50% 的 速度 
增长 ， 即 每 两 年 就 增长 一 倍 (IDC ) 人 类 在 最 近 两 
年 产生 的 数据 量 相 当 于 之 前 产生 的 全 部 数据 量 。 预 
计 到 2020 年 ， 全 球 将 总 共 拥 有 35ZB 的 数据 量 ， 相 
较 于 2009 年 ， 数 据 量 将 增长 近 44 倍 。 


TERABYTE 。 10 的 12 次 方 。” 一 块 1TB 硬 盘 | 200,000 照 片 或 mp3 歌 曲 


【1 


PETABYTE 。 10 的 15 次 方 。 两 个 数据 中 心机 柜 和 营 。 16 个 Blackblaze pod 存 储 单 元 
大 数据 的 发 展 历 史 2 


ExAByTE 。 10 的 18 次 方 。 2000 个 机 本 占据 一 个 街区 的 4 层 数 据 中 心 


多 胆 


ZETTABYTE 10 的 21 次 方 。 1000 个 数据 中 心 衣 纽约 曼哈顿 思维 1/5 区 域 


大 量化 volume YorTrAByTE 10 的 24 次 方 一 百 万 个 数据 中 心肝 。 特 拉 华 放 和 罗 德 名 放 
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(2 ) 快速 化 Velocity 
大 数据 需要 很 快 的 处 理 速度 : 从 数据 的 生成 到 消 


耗 ， 时 间 窗 口 非 常 小 ， 可 用 于 生成 决策 的 时 间 非 常 
少 。1 秒 定律 〈 秒 级 定律 ) : 这 一 点 和 传统 的 数据 挖 
掘 技 术 有 着 本 质 的 不 同 。 
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(3 ) 多 样 化 Variety 


大 数据 数据 形态 丰富 : 大 数据 由 结构 化 数据 和 非 结 
构 化 数据 组 成 。 


20% 80% 二 
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3 ) 大 效 据 生态 发 展 史 


伴随 着 大 数据 的 发 展 ， 层 出 不 穷 的 大 数据 工具 开始 
诞生 和 发 展 ， 并 形成 一 个 大 数据 生态 ， 下 面 罗 列 了 
一 些 大 数据 生态 发 展 史 中 的 典型 项 目 工具 ， 它 们 也 


是 我 们 当前 处 理 大 数据 的 主流 工 
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1 ) 大 数据 市 


来 的 影响 


速 发 展 ， 给 我 们 


来 的 影响 


也 市 来 了 很 大 的 


本 生 吕 册 
大 数据 带 来 的 影响 党 Sm 出 晶 过 | 人 
ET 


。 社会 发 展 : 大 数据 决策 逐渐 成 为 一 种 新 的 决策 
方式 。 大 数据 应 用 有 力促 进 了 信息 技术 与 各 行 
业 的 深度 融合 ， 大 数据 开发 大 大 推动 了 新 技术 


和 新 应 用 的 不 断 浦 现 。 
。 就业 市 场 : 大 数据 的 兴起 使 数据 科学 家 成 为 执 
门 职业 。 


。 人才 培 养 : 大 数据 的 兴起 ， 将 在 很 大 程度 上 改 
变 中 国 高 校 信息 技术 相关 专业 的 现 有 教学 和 科 
研 体制 。 

。 人工 智能 : 人 工 智 能 需要 海量 的 数据 作为 依 
托 ， 对 于 海量 数据 快速 处 理 分 析 的 需求 非常 强 


Rs 
2 ) 大 效 据 的 应 用 


大 数据 无 处 不 在 ， 包 括 金融 、 汽 车 、 零 售 、 和 餐饮 、 
电信 、 人 能源、 政务、 医疗、 体育 、 娱 乐 等 在 内 的 社 
会 各 行 各 业 都 已 经 融入 了 大 数据 的 印迹 。 


大 数据 带 来 的 影响 


下 面 我 们 一 起 来 看 看 大 数据 在 不 同行 业 领 域 的 典型 
应 用 场景 案例 。 


电 商 - 预测 用 户 行为 : 用 户 行为 信息 就 是 用 户 在 网 
站 上 发 生 的 所 有 行为 。 


。 如 搜索 、 浏 览 、 打 分 、 点 评 、 加 入 购物 管 、 取 
出 购物 管 、 加 入 期 待 列表 、 购 买 、 使 用 减 价 券 
和 退货 等 

。 也 包括 在 第 三 方 网 站 上 的 相关 行为 ， 如 比价 、 
看 相关 评测 、 参 与 讨论 、 社 交 媒 体 上 的 交流 、 
与 好 友 互 动 等 。 

。 对 电 商 大 数据 Al 应 用 感 兴趣 的 同学 可 以 查看 
ShowMeAI 在 电 商 与 用 户 行为 预 估 垂 直 领 域 的 
一 些 介 绍 文章 ， 如 《大 厂 技 术 实现 | 多 目标 优 
化 及 应 用 ( 含 代 码 实现 )》 


娱乐 - 定制 影视 节目 : 大 数据 在 影视 作品 的 制作 、 
发 行 、 放 映 环 节 都 发 挥 着 重要 作用 。 


。 对 于 发 行 方 而 言 ， 可 以 根据 作品 题材 ,受众 群 
众 等 数据 制定 营销 策略 ， 比 如 Netflix 通 过 分 析 
用 户 数据 买 下 《纸牌 屋 》 版 权 并 开局 了 大 数据 
对 于 影视 产业 的 全 面 渗透 

。 对 于 投资 方 和 制 片 方 来 说 ， 可 以 利用 大 数据 对 
投资 回报 进行 预测 ， 威 少 风 险 和 损失 , 

。 对 于 影院 来 说 ， 可 以 利用 大 数据 进行 排 片 和 票 
房 预 测 。 

。 对 娱乐 大 数据 Al 应 用 感 兴 趣 的 同学 可 以 查看 
ShowMeAI 在 相 天 垂直 领域 的 一 些 介绍 文 章 ， 
如 《大 三 技术 实现 | 爱 告 亏 短 钢 频 推 荐 业务 中 
的 多 目标 优化 实践 》 


医疗 - 预测 疾病 趋势 : 从 谷歌 流感 趋势 (Google 
Flu Trends, GFT ) 是 看 大 数据 的 应 用 价值 。 


。2008 年 推出 的 一 款 预测 流感 的 产品 ， 通 过 跟踪 
搜索 词 相关 数据 来 判断 全 美 地 区 的 流感 情况 。 

。 对 医疗 大 数据 Al 应 用 感 兴趣 的 同学 可 以 查看 
ShowMeAI 在 相关 垂直 领域 的 一 些 介 绍 文章 ， 
如 《大 三 技术 实现 | 华为 云 用 于 医疗 推理 的 预 
训练 模型 和 知识 图 谱 整合 方案 》 


交通 - 优化 城市 交通 : 目前 公共 领域 率先 使 用 大 数 


据 技 术 的 主要 是 交通 行业 。 


。 曾经 的 无 处 可 碍 的 套 牌 车 ， 和 死板 的 红绿灯 跳 转 
算法 ， 在 大 数据 的 影响 下 都 被 一 一 解 峰 ， 为 城 
市 的 交通 做 出 巨大 的 贡献 。 


环境 - 预警 环境 污染 : 为 环境 保护 部 门 提供 强力 的 
效 据 文 撑 。 


。 影 响 深 远 的 环境 问题 ， 难 以 使 用 的 大 规模 环境 
检测 器 的 数据 ， 在 大 数据 的 强大 计算 能 力 下 ， 
可 以 做 到 近乎 实时 的 在 大 屏 上 进行 呈现 ， 快 速 
预警 环境 污染 问题 。 


政务 - 智慧 城市 建设 : 通过 大 数据 建立 起 信息 集群 
中 心 ， 为 城市 管理 业务 提供 数据 支持 。 


。 通过 信息 技术 ， 将 城市 的 系统 和 服务 打通 、 集 
成 ， 以 提升 资源 运用 的 效率 ， 优 化 城市 管理 和 
服务 ， 以 及 改善 市 民生 活 质量 。 


4. 大 效 据 生态 与 单 用 工具 


下 面 我 们 来 了 解 一 下 大 数据 生态 系统 架构， 以 及 应 
用 大 数据 技能 ， 完 整 的 大 数据 工具 技能 图 谱 。 如 下 


两 图 所 示 ”~ 


1 ) 大 数据 生态 系统 架构 


| 
-EEEET 一 有 


WapReduct ww Spark 
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| 介 | 


GS httpywwwshowmeaitechy os ( 曲 作 条 二 C 〇 ) 要案 | 微 信 ShowWeAl 研 究 中 心 


大 数据 生态 与 常用 工具 


中 http:Wwww.showmeaitechy 


2 ) 音 用 工具 -编程 语言 


大 数据 生态 工具 应 用 的 主流 编程 语言 是 Scala、 
Java， 随 着 Al 生态 的 快速 发 展 ， 其 最 常用 语言 
python 也 被 大 数据 生态 工具 很 好 地 支持 了 。 目 前 ， 
在 大 数据 处 理 场 景 下 ， 使 用 Scala、Java 或 者 
python 进 行 实现 ， 并 不 会 有 特别 大 的 效率 


《更 多 学 习 资 料 一 图 解 Python 详细 系列 教程 》 


3 ) 音 用 工具 -日 志 收 集 : Flume 


Flume，Apache 下 的 一 个 顶级 开源 项 目 ， 一 个 分 布 
式 、 可 靠 的 数据 收集 组 件 。 能够 高 效 的 收集 ， 整 合 
数据 ， 还 可 以 将 来 自 不 同 源 的 大 量 数据 汇聚 到 数据 
中 心 存 储 落 地 。 

目前 常用 于 企业 内 收集 整合 日 志 数 据 ， 但 由 于 其 数 
据 源 的 可 自 定 义 特性 ， 还 可 用 于 传输 结构 化 数据 
(oracle, mysql 等 )， 也 常 被 用 于 流 式 数据 的 采集 输入 
工具 。 


相 天 学 习 链 接 : 


。 Flume 官方 网 站 : http:/flume.apache.org/ 
。Flume 介绍 及 其 安装 : http:/ 
blog.51cto.com/13589448/2086140 


4 ) 弟 用 工具 -分 布 陈 数 据 存储 : HDFS 


HDFS(Hadoop Distributed File System)， 全 称 

Hadoop 分 布 式 文件 系统 。Hadoop 生 态 体系 的 存储 

底层 ， 用 于 存储 管理 大 批量 文件 数据 。 其 自 帝 的 容 

错 机制 ， 高 度 的 可 拓展 性 ， 让 其 成 为 现今 最 适用 的 
开源 分 布 式 存储 底层 系统 。 


特性 : 


。 人 存储 数据 类 型 为 任意 文件 ， 满 足 大 部 分 的 存储 
使 用 场景 ; 
。 基于 Java 平 台 开 发 ， 适 配 绝 大 多 数 PC， 服 务 


装 高 度 可 配置 化 ， 默 认 配 置 适 用 大 部 分 场 
景 ， 仅 部 分 超大 规模 集群 需要 进行 特殊 的 参数 
优化 ， 可 用 性 与 易 用 性 较 强 。 


灿 咒 


关于 HDFS 的 更 多 知识 也 可 以 查看 ShowMeAI 的 后 续 
教程 了 解 。 


相 天 学 习 链 接 : 


。 Hadoop 官方 文档 : https:/ 
hadoop.apache.org/docs/stable/index.html 
。HDFS 架构 介绍 : https:Whadoop.apache.org/ 
docs/stable/hadoop-project-disthadoop-hdfs/ 
HdfsDesign.html 

。HDFS 命令 指南 : https:Whadoop.apache.org/ 
docs/stable/hadoop-project-disthadoop-hdfs/ 
HDFSCommands.html 


5 ) 单 用 工具 -数据 仓库 : Hive 


Hive 是 构建 于 HDFS 上 的 一 套 分 布 式 结构 化 数据 存 
依 系 统 ， 可 以 狭义 的 理解 为 一 个 开源 的 分 布 式 数据 
库 ， 通 过 SQL 语言 进行 操作 ， 可 以 较为 罗 历 的 处 理 
超大 规模 下 结构 化 数据 的 处 理 分 析 工 作 。 


特性 : 


。 底层 调用 MapReduce 计 算 框架 ， 能 够 相对 快速 
完成 大 规模 数据 的 查询 和 分 析 工 作 ; 

。 数据 载 入 模式 支持 自 定 义 ， 且 支持 多 种 格式 的 
数据 文件 ， 为 不 同 的 数据 使 用 场景 提供 更 适合 
的 方案 。 
关于 hive 的 更 多 知识 也 可 以 查看 ShowMeAI 的 
后 续 教 程 了 解 。 


相 天 学 习 链 接 : 


。 Hive 官方 文档 : http:Whive.apache.orgy/ 

。 Hive 核心 基本 概念 : https:/blog.csdn.net/ 
freefish_yzx/article/details/77150248 

。 Hive 常用 命令 : https:Wblog.csdn.net/hardyer 
article/details/79009080 


6 ) 常用 工具 -Hadoop 家 族 : HBase 


HBase 是 构建 于 HDFS 上 的 一 套 分 布 式 非 结构 化 数 
据 存 储 系 统 ， 类 似 于 Redis 之 类 的 Key-Value 数 据 
库 ， 可 以 通过 key 进 行 大 规模 数据 的 快速 索引 查询 。 
目前 常用 于 在 大 规模 数据 中 快速 查询 某 些 信息 记 
录 ， 例 如 从 几 亿 用 户 信息 中 快速 查询 某 个 用 户 信 
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寺 性 : 


。 对 于 检索 key 查 询 value 可 以 做 到 毫秒 级 的 响 
应 ， 满 足 大 多 数 低 延迟 相应 的 要 求 ; 

。 底层 使 用 HDFS 作 为 文件 存储 系统 ， 让 HBase 
的 单 表 存 储 记 录 数 可 以 达到 极 高 的 规模 。 


关于 HBase 的 更 多 知识 也 可 以 查看 ShowMeAI 的 后 
续 教 程 了 解 。 


相 天 学 习 链 接 : 


。 HBase 官方 文档 : https:W/hbase.apache.org/ 

。 HBase 介绍 : https:Wblog.csdn.net/ 
U010270403/article/details/51648462 

。 HBase 常用 命令 : https:/www.cnblogs.cornm/ 


shadowalkewp/7350484.html 


7 ) 弟 用 工具 -大 数据 通用 处 理 平 台 : 
Spark 


Spark 是 第 二 代 分 布 式 处 理 框架 ， 其 核心 思想 与 
MapReduce 类 似 ， 并 在 其 基础 上 对 于 处 理 Pipeline 
进行 了 优化 ， 包 括 引 入 DAG, 依 赖 划 分 等 机 制 。 同 
时 ， 通 过 针对 对 于 数据 缓存 的 使 用 ， 完 成 整体 计算 
性 能 的 大 幅度 提升 ， 成 为 目前 主流 的 分 布 式 处 理 框 
架 组 件 。 


特性 : 


。 中间 过 程 最 大 程度 基于 内 存 缓存 ， 降 低 磁 盘 
IO， 实 现 高 效 计 算 ; 

。 高 度 复合 的 框架 整合 ， 集 成 Spark Core、 
SparkSQL、SparkGraphx、SparkML、 
SparkStreaming， 让 多 环境 的 大 数据 开发 可 以 
单 平 台 完 成 。 


关于 Spark 的 详细 教程 和 综合 应 用 也 可 以 查看 
ShowMeAI 的 后 续 内 容 了 解 。 


相 天 学 习 链 接 : 


。 Spark 官 方 文 档 : http:Wspark.apache.org/ 
docs/latest/ 

。 Spark 快 速 入 门 : http:Wwww.powerxing.cornm/ 
Spark-quick-start-guidey/ 

。 Spark 源 代码 环境 搭建 : https:Wblog.csdn.net/ 
haohaixingyum/article/details/60968776 


8 ) 单 用 工具 - 沉 式 计算 : Storm 


Storm 是 目前 使 用 最 多 的 实时 流 式 数据 处 理 框 架 ， 
其 核心 思想 主要 是 对 每 一 个 流入 的 数据 都 分 配 一 个 
线程 进行 处 理 ，Storm 框 光 完 成 所 有 数据 ， 绪 程 的 
调度 处 理 ， 让 开发 者 可 以 专注 开发 基于 沉 式 数据 的 
业务 性 功能 开发 。 


寺 性 : 


。 Storm 针 对 里 条 记录 进行 接受 处 理 并 反馈 结 
果 ， 适 用 实时 事务 性 处 理 场 景 

由 于 处 理 机 制导 致 其 并 发 度 无 法 达到 非常 高 的 
程度 ， 集 群 一 旦 到 达 性 能 瓶颈 ， 难 以 进行 进 一 
步 的 优化 


相 天 学 习 链 接 : 


。 Storm 官 方 文档 : http:/storm.apache.org/ 
。 Storm 入 门 原理 介绍 : http:/ 
www.cnblogs.com/wuxiang/p/5629138.html 


9 ) 弟 用 工具 - 帝 式 计算 : Flink 


Apache Flink 是 一 个 用 于 分 布 式 流 和 批 处 理 数 据 处 
理 的 开源 平台 。Flink 的 核心 是 流 数据 流 引 擎 ， 为 数 
据 汶 上 的 分 布 式 计 算 提 供 数据 分 发 、 通 信和 容错 。 
Flink 在 流 引 擎 之 上 构建 批 处 理 ， 履 盖 本 机 友 代 文 
持 ， 托 管内 存 和 程序 优化 。Flink 核 心思 想 与 
SparkStreaming 类 似 ， 针 对 数据 集 的 微 批 处 理 框 
架 ， 在 相对 不 高 的 延迟 下 ( 秒 级 ) 完 成 批量 数据 的 近 
实时 处 理 。 


寺 性 : 


。 收集 数据 ， 按 照 时 间 进 行 微 批 数据 的 切 分 ， 并 
进行 分 布 式 处 理 ， 数 据 处 理 吞 吐 量 大 ; 

。 由 于 针对 批 次 数据 加 工 ， 相 对 延迟 高 于 
Storm， 且 无 法 完成 实时 事务 性 处 理 ( 例 : 银行 
即时 转账 等 业务 )。 


相 天 学 习 链 接 : 


。 Flink 官方 文档 : https:Wflink.apache.org/ 

。 Flink 架 构 、 原 理 与 部 署 测 试 : https:/ 
blog.csdn.net/jdoouddmy7iarticle/ 
details/62039337 

。 Flink 初 体验 : https:/www.jianshu.comy/p/ 
cd39656c39d3 


5. 参 考 资 料 


Apache Spark 官 方 文档 中 文 版 :http:/ 
Spark.apachecn.org/docs/cn/2.2.0/ 
ApacheCN Github 资 料 地 址 : https:/ 
github.com/apachecn 

图 解 Spark : 核心 技术 与 案例 实战 ,电子 工业 出 
版 狂 , 郭 景 瞻 

Python 编程 从 入 门 到 实践 ,人 民 邮 电 出 版 

社 ,Eric Matthes 南国 忠 译 
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。 图 解 大 数据 | 大 数据 生态 与 应 用 导论 


。 图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图解 大 数据 | Hadoop 系 统 搭建 与 环境 配置 @ 实 
操 案 例 

。 图解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图 解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数据 库 
查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
乡 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图 解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交 易 数 据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 音 乐 专辑 数据 
@ 综 合 案例 

。 图解 大 数据 | Spark Streaming @ 流 式 数 据 处 
旬 


。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 上 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 

。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 

。 这 度 学 习 教 程 : 吴 恩 达 专 项 课程 . 全 套 笔 记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 . 课 
程 融 学 与 全 套 笔记 解读 
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原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123122657 
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本 文 地 址 : http:/www.showmeai.techyarticle- 
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收藏 ShowMeAI 查 看 更 多 精彩 内 容 


1.Hadoop 快 速 入 门 


1) Hadoop 简 介 


Hadoop 是 Apache 软 件 基金 会 旗下 的 一 个 开源 分 布 
式 计 算 平 台 ， 为 用 户 提 供 了 系统 底层 细节 透明 的 分 
布 式 基础 凡 构 。 


。 Hadoop 是 基于 Java 语 言 开发 的 ,具有 很 好 的 
跨 平 台 特性 ， 并 且 可 以 部 署 在 廉价 的 计算 机 集 
群 中 ; 


。 Hadoop 的 核心 是 分 布 式 文 件 系统 
HDFS (Hadoop Distributed File System ) 和 
MapReduce ; 


。 Hadoop 被 公认 为 行业 大 数据 标准 开源 软件 ， 
在 分 布 式 环境 下 提供 了 海量 数据 的 处 理 能 


。 几乎 所 有 主流 厂商 都 围绕 Hadoop 提 供 开发 工 
有 具 、 开 源 软 件 、 商 业 化 工具 和 技术 服务 ， 如 合 
歌 、 微 软 、 字 节 跳 动 、 美 团 点 评 、 淘 宝 等 ， 都 
支持 Hadoop。 


关于 Hadoop 的 搭建 与 应 用 案例 欢迎 大 家 关注 
ShowMeAlI 下 列 文章 : 


。 买 操 案 例 -Hadoop 系 统 搭建 与 环境 配置 


。 实 操 案 例 -应 用 map-reduce 进 行 大 数据 统计 


2 ) Hadoop 发 展 简 史 


Hadoop 现 在 已 经 广泛 地 应 用 在 大 数据 任务 中 ， 而 它 
最 初 其 实 只 是 由 Apache Lucene 项 目的 创始 人 Doug 
Cutting 开 发 的 文本 搜索 库 。 下 面 是 它 的 发 展 历 程 。 


息 2002 年 ”开源 的 网 络 楼 索引 擎 ApacheNutch Headoop 起 源 马 
龟 2004 年 分 布 式 文件 系统 NDFS (Nutch Distributed File system) 。“HDFS 的 前 身 忆 
e 2004 年 ”谷歌 发 表 论文 阐述 MapReduce 分 布 式 编程 思想 5 臣 
2005 年 实现 了 谷歌 的 MapReduce 人 iaiaa 有 5 
自 2006 年 ” NDFS 和 MapReduce 开 始 独 立 出 来 Hadoopi 诅 生 况 
自 2008 年 ”Hadoopj 逐渐 被 雅虎 之 外 的 公司 使 用 Hadoopl 成 为 Apache 顶 级 项 目 
鲁 2008 年 Hadoop 成 为 最 快 排序 1TB 数 据 的 系统 Hadoop: 打破 世界 纪录 

意 2009 年 ”Hadoop 杷 1TB 数 据 排序 时 间 缩短 到 62 秒 | 已 ) 担 索 | 微 信 ShowMeAl 研 究 中 心 


。 Hadoop 源 自 始 于 2002 年 的 Apache Nutch 项 目 
一 一 一 个 开源 的 网 络 搜索 引擎 ， 也 是 Lucene 的 


。2004 年 ，Nutch 项 目 也 模仿 GFS 开 发 了 自己 的 
分 布 式 文件 系统 NDFS (Nutch Distributed File 
System ) ， 也 就 是 HDFS 的 前 身 。 


。2004 年 ， 谷 歌 公 司 又 发 表 了 另 一 篇 具有 深远 影 
响 的 论文 ， 阐 述 了 MapReduce 分 布 式 编程 思 
相 


VLuNO 


。2005 年 ，Nutch 开 源 实 现 了 谷歌 的 
MapReduce。 


。2006 年 2 月 ，Nutch 中 的 NDFS 和 MapReduce 
开始 独立 出 来 ， 成 为 Lucene 项 目的 一 个 子 项 
目 ， 称 为 Hadoop， 同 时 ，Doug Cutting 加 盟 雅 
虎 。 


。 2008 年 1 月 ，Hadoop 正 式 成 为 Apache 顶 级 项 
目 ，Hadoop 也 逐渐 开始 被 雅虎 之 外 的 其 他 公 
司 使 用 。 


。2008 年 4 月 ，Hadoop 打 破 世 界 纪录 ， 成 为 最 快 
排序 1TB 数 据 的 系统 ， 它 采用 一 个 由 910 个 节 
点 构成 的 集群 进行 运算 ， 排 序 时 间 只 用 了 209 
秒 。 


。2009 年 5 月 ，Hadoop 更 是 把 1TB 数 据 排序 时 间 
缩短 到 62 秘 。 


。 Hadoop 从 此 名 声 大 震 ， 迅 速 发 展 成 为 大 数据 
时 代 最 具 影 响 力 的 开源 分 布 式 开 发 平台 ， 并 成 
为 事 买 上 的 大 数据 处 理 标准 。 


2.Hadoop 特 性 与 应 用 现状 


1 ) Hadoop 特 性 


Hadoop 是 一 个 能 够 对 大 量 数 据 进行 分 布 式 处 理 的 软 
件 框 麻 ， 并 且 是 以 一 种 可 靠 、 高 效 、 可 伸缩 的 方式 
进行 处 理 的 。 它 具 有 以 下 几 个 方面 的 特性 : 


9 
2 
nowRen 如 
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Hadoop 特 性 & 应 用 名 人 区 < 5 人 Ai 


高 可 靠 性 高效 性 ”高 可 扩展 性 高 容错 性 成 本 低 2 运行 在 


程 语言 ”Linux 平台 
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2 ) Hadoop 应 用 现状 


Hadoop 和 凭借 其 突出 的 优势 ， 已 经 在 各 个 领域 得 到 了 
广 沁 的 应 用 ， 而 互联 网 领域 是 其 应 用 的 主 阵地 。 


乓 二 
RHOOI facebook 杰 
喇 

雅虎 在 总 部 建立 7M45: 包含 4000 个 处 理 Facebook 主 要 将 Hadoop 平 台 用 生 
Hadoop 特 性 & 应 用 器 和 1.5PB 客 量 的 Hadoop 集 群 系统 日 志 处 理 、 推 荐 系统 和 数据 仓库 等 方面 
加 
确 


China Mobie 
国内 采用 Hadoop 的 公司 主要 有 


网 易 NerEAse 包 美加 百度 .淘宝 、 网易、 华为、 中 国 移动 等 
JIAVV: 上 


Iu ByteDance 。 huawe 
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。 雅虎 2007 年 在 Sunnyvale 总 部 建立 了 M45 一 一 
一 个 包含 了 4000 个 处 理 器 和 1.5PB 容 量 的 
Hadoop 集 群 系统 。 


Facebook 作 为 全 球 知名 的 社交 网 站 ，Hadoop 
是 非常 理想 的 选择 ，Facebook 主 要 将 Hadoop 
平台 用 于 日 志 处 理 、 推 荐 系统 和 数据 仓库 等 方 
面 。 


Hadoop 特 性 & 应 用 


国内 主流 的 互联 网 及 信息 公司 7 包括 百度 、 淘 
宝 、 网 易 、 字 节 、 美 团 点 评 、 华 为 、 中 国 移动 
等 都 采用 了 Hadoop。 


3 ) Hadoop 版 本 演进 


Apache Hadoop 版 本 分 为 两 代 : 第 一 代 Hadoop 称 
为 Hadoop 1.0， 第 二 代 Hadoop 称 为 Hadoop 2.0。 


HADOOP 1.0 HADOOP 2.0 


Mapreduce 人 


(data processing) 


第 一 代 Hadoop 包 含 三 个 大 版 本 ， 分 别 是 0.20.X、 
0.21.X、0.22.X。 


。0.20.x 最 后 演化 成 1.0.x， 变 成 了 稳定 版 。 
。0.21.x 和 0.22.x 则 增加 了 NameNode HA 等 新 的 
重大 特性 。 


第 二 代 Hadoop 包 含 两 个 大 版 本 ， 分 别 是 0.23.X、 
2.X。 


。 它们 完全 不 同 于 Hadoop 1.0， 是 一 套 全 新 的 架 
构 ， 均 包含 HDFS Federation 和 YARN 两 个 系 
统 。 

。 相 比 于 0.23.x，2.x 增 加 了 NameNode HA 和 
Wire-compatibility 两 个 重大 特性 。 


3.Hadoop 生 态 项 目 架 构 


Hadoop 生 态 项 目 架 构 


二 诠 :9 有 和 人 全 四 


如 上 图 多 列 了 Hadoop 生 态 的 项 目 避 构 ， 包 含 以 下 组 
件 ， 搬 级 结构 与 核心 功能 见 图 。 


组 件 功能 

HDFS 分 布 式 文件 系统 

MapReduce 分 布 式 并 行 编程 模型 

YARN 资源 管理 和 调度 器 

Tez 运行 在 YARN 之 上 的 下 一 
代 Hadoop 查 询 处 理 框 架 

Hive Hadoop 上 的 数据 仓库 

HBase Hadoop 上 的 非 关 系 型 的 
分 布 式 数据 库 

Pig 一 个 基于 Hadoop 的 大 规 
模 数 据 分 析 平 台 ， 提 供 类 
似 SQL 的 和 查询 语 言 Pig 
Latin 

Sqoop 用 于 在 Hadoop 与 传统 数 


据 库 之 间 进 行 数 据 传递 


Oozie 
Zookeeper 
Storm 
Flume 


Ambari 


Kafka 


Spark 


4.HDFS 介 绍 


1 ) 分 布 卫 文件 系统 


Hadoop 上 的 工作 流 管 理 
系统 
提供 分 布 式 协 调 一 致 性 服 


务 


流 计算 框架 

一 个 高 可 用 的 ， 高 可 靠 
的 ， 分 布 式 的 海量 日 志 采 
集 、 聚 全 和 传输 的 系统 
Hadoop 快 速 部 署 工 具 ， 
支持 Apache Hadoop 集 群 
的 供应 、 管 理 和 监控 

一 种 高 吞吐 量 的 分 布 式 发 
布 订 阅 消息 系统 ， 可 以 处 
理 消 费 者 规模 的 网 站 中 的 
所 有 动作 流 数据 

类 似 于 Hadoop 
MapReduce 的 通用 并 行 


框 嫉 


分 布 式 文件 系统 ， 把 文件 分 布 存 储 到 多 个 计算 机 
点 上 ， 成 干 上 万 的 计算 机 点 构成 计算 机 集群 。 与 
之 前 使 用 多 个 处 理 器 和 专用 高 级 硬件 的 并 行 化 处 理 
才 置 不 同 的 是 ， 目 前 的 分 布 式 文件 系统 所 采用 的 计 
算 机 集群 ， 都 是 由 普通 硬件 构成 的 ， 这 融 大 大 降低 
了 硬件 上 的 开销 。 


系统 ， 在 物理 结构 上 是 由 计算 机 集群 中 的 多 个 节点 构成 的 。 节 点 分 为 两 类 忆 


Am 


访问 请 求 主 节点 (Master Node) “ 忌 
一 忆 
主 节 点 或 称 名 称 结 点 (Name Node 委 
3 一 
5 AS 局 确 
数据 节点 \\ 数据 节点 硕 一 一 
妆 从 节 占 | 于 
和 汪 全 es 
襄 LU 复制 支 件 块 
] 双 件 或 称 数 握 节 志 tData Nod 
Re Ti 
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兼容 廉价 的 流 数据 大 数据 集 简单 的 强大 的 S 
硬件 设备 谈 写 文件 模型 跨 平 台 兼 容 { 
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总 体 而 言 ,，HDFS 要 实现 以 下 目标 : 


。 兼容 廉价 的 硬件 设备 


。 流 数据 读 与 


。 大 数据 集 
。 简 时 的 文件 模型 
。 强大 的 跨 平 台 兼容 性 


HDFS 特 殊 的 设计 ， 在 实现 上 述 优良 特性 的 同时 ， 
也 使 得 自身 具有 一 些 应 用 局 限 性 ， 主 要 包括 以 下 几 
个 方面 


。 不 适合 低 延 迟 数据 访问 
。 无 法 高 效 和 存储 大 量 小 文件 
。 不 支持 多 用 户 写 入 及 任意 修改 文件 


3 ) HDFS 块 及 其 优势 


块 (Block ) : HDFS 默 认 一 个 块 64MB， 一 个 文件 
被 分 成 多 个 块 ， 以 块 作 为 存储 单位 。 块 的 大 小 远 远 
大 于 普通 文件 系统 ， 可 以 最 小 化 寻 址 开销 。 


相交 以 块 作 所 
为 存储 单位 。 嘲 
酌 


war 块 的 大 小 远 远大 干 普通 
2 文件 系统 ， 可 以 最 小 化 

寻 址 开销 。 
\ 杰 索 | 微 信 8 
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HDFS 采 用 抽象 的 块 概念 可 以 带 来 以 下 几 个 明显 的 


HDFS 采 用 抽象 的 块 概念 可 以 带 来 以 下 几 个 明显 的 好 处 ; 

支持 大 规模 文件 存储 : 一 个 文件 的 大 小 不 会 受到 单个 节点 存储 容量 的 限制 
HDFS 介 绍 全 汪 。。 可 以 远 远大 干 网 络 中 任意 节点 的 存储 容量 。 
简化 系统 设计 : 四 
大 大 简化 了 存储 管理 ， 


昌 理 ， 方 便 元 数据 的 管理 。 


回 适合 数据 备 价 : 
每 个 文件 块 都 可 以 兄 余 存储 到 多 个 节点 上 f- 坟 大 提 高 了 系 欧 的 容错 性 和 5 用 1 1 
0wMeAi 


。 支持 大 规模 文件 存储 : 文件 以 块 为 单位 进行 存 
储 ， 一 个 大 规模 文件 可 以 被 分 拆 成 各 干 个 文件 
块 ， 不 同 的 文件 块 可 以 被 分 发 到 不 同 的 万 操 
上 ， 因 此 ， 一 个 文件 的 大 小 不 会 受到 单个 节点 
的 存储 容量 的 限制 ， 可 以 远 远大 于 网 络 中 任意 
忆 点 的 存储 容量 。 

。 简化 系统 设计 : 首先 ， 大 大 简化 了 存储 管理 ， 
因为 文件 块 大 小 是 固定 的 ， 这 样 就 可 以 很 容易 
计算 出 一 个 节点 可 以 存储 多 少 文 件 块 ; 其 次 ， 
方便 了 元 数据 的 管理 ， 元 数据 不 需要 和 文件 块 
一 起 存储 ， 可 以 由 其 他 系统 负责 管理 元 数据 。 

。 适合 数据 备份 : 每 个 文件 块 都 可 以 风 余 存储 到 
多 个 节点 上 ， 大 大 提高 了 系统 的 容错 性 和 可 用 
汪 


4) HDFS 主 要 组 件 的 功能 


2 存储 元 数据 存储 文件 内 容 
元 数据 保存 在 内 存 中 文件 内 容 保存 在 磁盘 区 
HDF s 介 绍 保存 文件 . block'、 datanode 之 间 的 映射 关系 ”维护 了 blockid 到 datanode 本 地 文件 的 映射 关系 
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HDFS 包 含 Name Node 和 Data Node， 有 具体 的 功能 
和 特点 对 比如 上 图 所 示 。 


Name Node Data Node 
存储 元 数据 存储 文件 内 容 
元 数据 保存 在 内 存 中 文件 内 容 保 存在 磁盘 
保存 文件 、block、 维护 了 block id 到 
datanode 之 间 的 映射 关系 datanode 本 地 文件 的 映 
射 关 系 


5.Map-Reduce 分 布 式 数据 处 
理 


HDFS 很 好 地 解决 了 分 布 式 文件 存储 的 问题 ， 而 
hadoop 利 用 一 套 Map-Reduce 的 计算 框架 ， 也 解决 
了 大 数据 处 理 的 难题 。 下 面 整理 了 大 数据 计算 所 面 
对 的 问题 ， 以 及 一 些 解 决 思 路 (也 是 map-reduce 的 
核心 思想 ) 。 


我 们 后 面 的 内 容 会 以 实 操 的 方式 ， 带 大 家 一 起 看 
hadoop 的 组 件 与 Map-Reduce 应 用 的 案例 ， 这 里 大 
家 先 做 一 个 简单 了 解 ， 具 体 的 应 用 实 操 接着 看 
ShowMeAI 后 续 内 容 哦 ~ 


集群 计算 面 对 的 器 题 & 方 案 


Map-Reduce 
分 布 式 数据 处 理 


[| 

有 
解决 方法 : 在 多 节点 上 宛 余地 存储 数据 旨 
次 /天 以 保证 数据 的 桂 续 性 和 一 直 可 取 性 可 
， 后] 
了 
解决 方法 : 数据 汉 * 块 杖 "形式 在 杀 台 机 器 上 党 
存储 以 最 大 程度 减 数 据 称 动 


从 画 3: 分 布 式 编程 非常 复 末 悚 人 
需要 一 个 笛 单 的 模型 能 等 隐 去 所 有 的 复杂 性 国生 人 靖 


问题 1 : 节点 故障 。 如 何 保持 数据 的 持续 性 ， 即 在 叶 
些 节 点 故障 的 情形 下 不 影响 依旧 能 够 使 用 数据 ? 在 
运行 时 间 较 长 的 集群 运算 中 ， 如 何 应 对 节点 故障 

呢 ? 


解决 方法 : 在 多 节点 上 元 余地 存储 数据 。 分 布 式 文 
件 存 储 系统 提供 全 局 的 文件 命名 空间 ， 元 余 度 和 可 
获取 性 。 例 如 : Google 的 GFS、Hadoop 的 HDFS。 


估 解决 方法 : 在 多 节点 上 宛 余地 存储 数据 


。 分 布 式 文件 存储 系统 提供 全 局 的 文件 命名 空间 ， 兄 余 度 和 可 获取 性 到 
Map-Reduce ，。 例如 Google 的 GFS、Hadoop 的 HpDFS 
分 布 式 数 据 处 理 3 
国 
典型 的 应 用 场景 与 模式 
合 、 超大 级 别 的 数据 量 合 、 效 据 很 少 售 。 最 常见 的 棵 作为 


合 ”xio0GB 到 100TB 级 8 铭 。 整个 被 苦 换 一 一 一 登 一 读 取 和 追加 数据 -| 
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问题 2 : 网 络 带宽 瓶颈 。 


解决 方法 : 数据 以 " 块 状 "形式 在 多 台 机 器 上 存储 。 
每 个 数据 块 都 会 重复 地 在 多 台 机 器 上 存储 ， 保 证 数 
据 的 持续 性 和 随时 可 取 性 。 


JE 

敬 解决 方法 : 数据 以 * 块 状 "形式 在 多 台 机 器 上 存储 王 
。 每 个 数据 块 部会 重复 地 在 多 台 机 器 上 存储 忆 

Map-Reduce -。 保证 数据 的 桂 续 性 和 随时 可 取 性 呈 
分 布 式 数 据 处 理 E 


中 http:Wwww.showmeaitechy 


问题 3 : 分 布 式 编程 非常 复杂 。 需 要 一 个 简单 的 模型 
能 够 隐 去 所 有 的 复杂 性 。 


解决 方法 : 简单 的 程序 模型 隐藏 所 有 的 复杂 上 度 。 


| 

乱 佑 六 法 : 简单 的 程序 模型 隐 区 所 有 的 复杂 度 吧 
3 加 
， 服务 器 块 : -了 


= 
Map-Reduce 文件 被 分 作 16-64MB 大 小 的 连续 块 ， 每 个 文件 块 会 被 重复 地 存储 2 到 3 次 ， 尽 量 保证 重复 的 全 
分 布 式 数据 处 理 数据 志 在 不 同 的 机 架 上 。 
， 主 节点 : 
Hadoop 的 HDFs 里 叫做 Name 节 点 ， 存 储 元 数据 记录 文件 存储 结构 和 地 址 ， 也 可 以 重复 。 
。 文件 访问 的 客户 端 库 : 


询问 主 节点 以 获取 块 服务 器 地 址 ， 直 接连 接 相应 服 
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。 图 解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图解 大 数据 | Hadoop 系 统 搭 建 与 环境 配置 @ 实 
操 案 例 

。 图 解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图解 大 数据 | Hive 拱 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数据 库 
查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
砂 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零 售 交易 数据 
@ 综 合 案例 


。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 音乐 专辑 数据 


综合 案例 


@ 
。 图解 大 数据 | Spark Streaming @ 流 式 数 据 处 
理 


。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 
。 机 器 学 习 实战 : 手把手 教 你 玩 转机 器 学 习 系列 
。 深度 学 习 教 程 : 吴 恩 达 专项 课程 . 全 套 笔 记 解 


读 


。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 
程 带 学 与 全 套 笔记 解读 
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原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123138725 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/84 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/169 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.5| 言 


本 教程 ShowMeAlI 详 细 给 大 家 讲解 Hadoop 的 安装 与 
环境 配置 方法 ， 关 于 Hadoop 与 nap-reduce 的 基础 
知识 ， 大 家 可 以 回顾 ShowMeAI 的 基础 知识 讲解 篇 
分 布 式 平台 Hadoop 与 Map-reduce 详 解 。 本 教程 的 
工作 环境 为 Linux 系 统 (实际 有 大 数据 环境 的 公司 ， 
工作 与 开发 环境 很 多 也 是 在 服务 器 上 ， 大 家 可 以 尽 
早熟 悉 一 下 ) 。 


本 教程 使 用 到 的 Hadoop 安 装 文件 ， 下 载 方式 有 以 下 


选择 : 


。@ Hadoop 官 网 https:Whadoop.apache.org/ 
releases.html 

。 O@O) 百度 网 盘 ， 找 到 Hadoop 安 装 文件 
【hadoop-2.7.1.tar.gz】 进 行 后 续 实 验 


Hadoop 安 卖 文 件 下 载 (百度 网 盘 ) 
链接 : https:Wpan.baidu.comny/ 
sS/1kFBBT2glXxeGxf Y2PXwWA7Q 
提取 码 : show 


2. 环 境 说 明 


。 系统 环境 : Ubuntu 14.04 64 位 〈Ubuntu 
12.04，Ubuntu16.04 也 行 ，32 位 、64 位 均 
可 ) 。 

。Hadoop 版 本 : 本 教程 基于 Hadoop 2 完成 ， 
Hadoop 2.6.0 (stable) 版 本 验证 通过 ， 可 适合 
任何 Hadoop 2.x.y 版 本 。 


3. 创 建 用 户 


1 ) 新 增 用 户 


首先 新 增 一 个 名 为 nadoop 的 用 户 。 打 开 终 端 窗口 
(快捷 键 ctrl+alt+t ) ， 输 入 如 下 命令 : 


sudqo Useradqdq -m haqoop -s /bin/pash 


对 上 述 操作 做 一 个 解释 : 


。 Sudo 命 令 : sudo 是 ubuntu 中 一 种 权限 管理 机 
制 ， 管 理 员 可 以 授权 给 一 些 普通 用 户 去 执行 一 
些 需 要 root 权 限 执行 的 操作 。 当 使 用 sudo 命 令 
时 ， 就 需要 输入 您 当前 用 户 的 密码 。 本 教程 中 


大 量 使 用 到 sudo 命 令 。 


。 密码 : 在 Linux 的 终端 中 输入 密码 ， 终 端 是 不 会 

显示 任何 你 当前 输入 的 密码 ， 也 不 会 提示 你 已 
经 输入 了 多 少 字 符 密 码 。 而 在 windows 系 统 中 ， 
输入 密码 一 般 都 会 以 “表示 你 输入 的 密码 字 
符 。 

2 ) 设置 密码 

使 用 如 下 命令 设置 密码 ， 可 简单 设置 为 hadoop ， 

按 提示 输入 两 次 密码 : 


Suaqo Passwdq hadoop 


再 通过 以 下 命令 为 hadoop 用 户 增 加 管理 员 权 限 ， 
方便 部 署 : 


Suaqo adaquser hadqoopPp suado 


4. 更 新 apt 


接 下 来 更 新 一 下 apt， 因 为 在 Linux (Ubuntu ) 环境 
下 最 方便 的 安 半 软 件 方式 是 使 用 apt ， 保 持 它 在 比 
较 新 的 状态 ， 在 命令 行 执行 如 下 命令 : 


Suaqo apt-get upadate 


安装 vim 等 编辑 器 : 后 续 使 用 vim 进 行文 本 编辑 ， 
里 基于 更 新 后 的 apt 安 装 一 下 vim， 命 令 如 下 : 


岂 


sudo apt=get inastall1 均 1 


需要 确认 ， 在 提示 处 输入 y 即 可 。 
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中 http:Wwww.showmeaitechy 


女 表 与 配置 SS 


集群 、 单 节点 模式 都 需要 用 到 SSH 登陆 ，Ubuntu 
默认 已 安装 了 SSH client ， 此 外 还 需要 安装 SSH 
server , 可 以 基于 以 下 命令 安装 : 


Sudqo apt-get instal1l openssh-serVeL 


安装 后 ， 可 以 使 用 如 下 命令 登陆 本 机 : 


SShnaocalineos 


此 时 会 有 如 下 提示 (SSH 首 次 登陆 提示 )， 输 入 yes 
。 然 后 按 提示 输入 密码 hadoop， 这 样 就 登陆 到 本 
机 了 。 


Hadoop 覆 建 & 配 置 
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中 http:Wwww.showmeaitechy 


下 面 配置 一 下 SSH 无 密码 登陆 ， 以 便 更 快捷 的 操 
作 。 


首先 退出 刚才 的 ssh， 再 利用 ssh-keygen 生成 密 
钥 ， 并 将 密 钥 加 入 到 授权 中 ， 命 令 如 下 : 


exXxjit # 退出 刚才 的 ssh 1o 
Ga/ 本 SS # 若 没 有 该 目录 ， 请 先 : 
ssh-keygen -fsa # 会 有 提示 ， 都 按 回 车 


cat ./id_rsa.pub >> ./authorized_keys  # 加 入 授权 


上 述 命令 中 : 


。~ 代表 的 是 用 户 的 主 文件 夹 ， 即 /home/ 用 户 名 


这 个 目录 
。 命令 中 的 # 后 面 的 文字 是 注释 ， 只 需要 输入 前 
面 命令 即 可 。 


此 时 再 用 ssh localhost 命令 ， 无 需 输入 密码 就 可 
以 直接 登陆 了 ， 如 下 图 所 示 。 
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6. 安 装 Java 环 境 
安装 需要 依赖 jdk 安 装 包 ， 从 下 方 百度 网 嚼 下 载 . 


Hadoop 安 雪 文 件 下 载 〈 百度 网 盘 ) 
链接 : https:Wpan.baidu.comy/ 
S/1kKFBBT2gIXeGxf_ Y2PXwA7Q 
提取 码 : show 


下 载 JDK1.8 的 安 志 包 【jdk-8u162-linux- 
x64.tar.gz】， 并 把 压缩 格式 的 文件 jdk-8u162-linux- 
x64.tar.gz 下 载 到 本 地 电脑 ， 假 设 保存 


在 /home/hadqoop/Downloadqsy/ 目录 下 。 


在 Linux 命 令 行 界面 中 ， 执 行 如 下 Shell 命 令 ( 注 
意 : 当前 登录 用 户 名 是 hadoop ) : 


GO 本 AS 人 襄 辐 9 

sudo mkdir jvm # 创 建 /usz*/Lib/Jjvm 目 录用 来 存放 JDK 文 件 
cq ~ # 进 入 haqoop 用 户 的 主 目录 

cq Downloads  # 注 意 区 分 大 小 写字 母 ， 刚 才 已 经 通过 FTP 软 件 
SUWqdaog 相 王城 全 本 光 铭 国 攻 二 36 性 让 用 到 二 妆 6 玫 有 让 二 SC 一 C 


JDK 文 件 解 讨 缩 以 后 ， 可 以 执行 如 下 命令 
到 /usr/1Lib/Jjvm 目录 查看 一 下 : 


AS 多 
下 泡 


可 以 看 到 在 /usr/Lib/Jjvm 目录 下 有 个 
jdk1.8.0_162 目 录 。 


下 面 继续 执 行 如 下 命令 ， 设 置 环 境 变量 : 


@q 荐 二 


STTVbashnee 


省 届 和 ee 
环境 变量 配置 文件 ， 这 个 文件 的 开头 位 置 ， 添 
加 如 下 几 行 内 容 : 


全文 记忆 基本 AN 六 荐 再 OMEE 一 msn 人 EYE 二 民 6 儿 
export JRE_HOME=S${UAVRA_HOME}V/ Jre 

export CLASSPATH=.:S$S{UAVA_HOME}V/Lib:S$SfURE_ HOME1V/ 
export PATH=S${UJAVA_HOME} /bin:SPATH 


保存 .bashrc 文件 并 退出 vim 编 辑 器 。 


然后 ， 继 续 执行 如 下 命令 让 .bashrc 文件 的 配置 立 
即 生 效 : 


source ~/.bashrc 
这 时 ， 可 以 使 用 如 下 命令 查看 是 否 安装 成 功 : 
]java -Version 


如 果 能 够 在 屏幕 上 返回 如 下 信息 ， 则 说 明 安 装 成 
功 : 


hadoocduouneae aa es 


下 本 本 人 玫 且 王 作 用 天 二 82 


Java (TIM) SEE Runtime EnVZironment (build 1.8.0 162 
JavVa HotSpPot (ITM) 64-Bit SerVver VM (build 25.162- 一 


7. 女 闭 Hadoop 2 


下 面 安装 Hadoop 2， 安 装 文件 可 以 通过 http:/ 
mirror.bit.edu.cn/apache/hadoop/commonmy/ 或 者 
http:Wmirrors.cnnic.cm/apache/hadoop/commonm/ 下 


载 ， 也 可 以 通过 以 下 方式 下 载 : 


。@ Hadoop 官 网 https:Whadoop.apache.org/ 
releases.html 

。OQ@) 百度 网 盘 ， 找 到 Hadoop 安 装 文件 
【hadoop-2.7.1.tar.gz】 进 行 后 续 实 验 


Hadoop 安 卖 文件 下 载 (百度 网 盘 ) 
链接 : https:Wpan.baidu.comny/ 
S/1kKFBBT2gIXeGxf_ Y2PXwWA7Q 
提取 码 : show 


选择 将 Hadoop 安装 至 /usr/liocal/ 中 : 


Sa Eac ER 过 /下 载 /15aaoapE27TEaE2 E /usr/ 
Ga 十 和 SEC 了 
SUadonmx naaocbE27RL aaqcoao 方 # 将 : 


suqo chown -R hadqoop ./hadqooPp # 修改 文件 权限 


Hadoop 解压 后 即 可 使 用 。 输 入 如 下 命令 来 检查 
Hadoop 是 否 可 用 ， 成 功 则 会 显示 Hadoop 版 本 信 
备 -. 


VE 。 


So ASGER ER 人 二 5 


./bin/hadoop version 


8.Hadoop 单 机 配置 


Hadoop 默认 模式 为 非 分 布 式 模式 (本 地 模式 ) ， 
无 需 进行 其 他 配置 即 可 运行 。 非 分 布 式 即 单 Java 
进程 ， 方 便 进 行 调试 。 


现在 可 以 执行 例子 来 感受 下 Hadoop 的 运行 。 
Hadoop 附 融 了 丰富 的 例子 〈 运行 .bin/hadoop jar 
/share/hadoop/mapreduce/hadoop-mapreduce- 
examples-2.6.0Jjar 可 以 看 到 所 有 例子 ) ， 包 括 


wordcount、terasort、join、grep 等 。 
在 此 选择 运行 grep 例子 ， 将 input 文件 夹 中 的 所 有 


文件 作为 输入 ， 算 选 当中 符合 正则 表达 
式 afs[a-z.1+ 的 单词 并 统计 出 现 的 次 数 ， 最 后 输 


出 结果 到 output 文件 夹 中 。 


Cd 是 和 SEOealynaacec 

TSDIE 

COREOEEenaqgeop7A mi 位 # 将 配置 文件 作为 输 , 
./Din/hadoop jar ./share/hadoop/mapreduce/hadooPp 
EECUEIOIEA # 查看 运行 结果 


执行 成 功 后 如 下 所 示 ， 输 出 了 作业 的 相关 信息 ， 输 
出 的 结果 是 符合 正则 的 单词 dfsadmin 出 现 了 1 次 
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注意 ，Hadoop 默认 不 会 覆盖 结果 文件 ， 因 此 再 次 
运行 上 面 实例 会 提示 出 错 ， 需 要 先 将 ./output 删 


除 。 删 除 命令 为 rm -r :GOUEPUE 5 


9.Hadoop 伪 分 布 式 配置 


Hadoop 可 以 在 单 节点 上 以 伪 分 布 式 的 方式 运行 ， 
Hadoop 进程 以 分 离 的 Java 进程 来 运行 ， 节 点 既 作 


为 NameNode 也 作为 DataNode， 同 时 ， 读 取 的 是 
HDFS 中 的 文件 。 


Hadoop 的 配置 文件 位 

于 /usr/local/hadoop/etc/hadoop/ 中 ， 伪 分 布 

式 需 要 修改 2 个 配置 文件 core-site.xml 

和 hafs-site.xml 。Hadoop 的 配置 文件 是 xml 格 
式 ) 每 个 配置 以 声明 PEoPerty 的 name 和 Value 

的 方式 来 实现 。 


修改 配置 文件 core-site.xml (可 以 通 

过 vim/oeait 编 

辑 : vim ./etc/hadoop/core-site.xml 或 

者 gedit ./etc/hadoop/core-site.xml),， 将 当中 


的 


<eenmnnrgueaiearone 


peomigEaiTNon 二 


修改 为 下 面 配 置 : 


<eononusaeweon 
seloesty 
<mname>hadoop .tmp .Qir</name> 


<ValLue>file:/usr/1Local/hadoop/ mp</valLue 


<qescription>Abase for other temporary q 
</PFOPeTrty> 
<peEeleemats 全 

<name>fs.dqefaultES</name> 

<Value>hdfs://Localhost:9000</valLue> 
</PFOPeLrty> 


peonm 人 gasaieniome 


同样 的 ， 修 改 配置 文件 hafs-site.xml : 


Kecenfahowueaieeon 人 

<peeeemtis 全 
<name>dqfs .replication</name> 
<Value>1</VvalLue> 

</PFOPeTrty> 

<peopemtsy 爷 
<mname>dqfs .namenodqe .name .qir</name> 
<vValue>file:/usr/local/hadqoop/tmp/dqfs/nal 

</PFOPeTrty> 

<p2epemEey 之 
<name>dfs .qdqatanodqe.dqata.dqir</name> 
<Value>file:/usr/local/hadoop/tmp/dqfsy/ da 

</PFOPeTrty> 


ceConieuisaEaenmE 


配置 完成 后 ， 执 行 NameNode 的 格式 化 : 


cad 醒 得 SO 名 Oceanaacaoo 


VDinVhaoEs namenoae 三 在 OrzmatE 


成 功 的 话 ， 会 看 到 SuUccesSsful1LIy formatted 
和 ExXittind with status 0 的 提示 ， 若 


为 Exitting with status 1 则 是 出 错 。 


enode .FSImage: ALLocated n ockPootId: BP-9652 


上 26 28 
8 6 
Hadoop 梯 建 & 配 置 /33 forage dtrectory /usr/tLocat/hadoop/tmpy/d 4 
h 


他 
ed， 扫 
SEOra9eRetentionanager: Gotng to retatn 1 in 


ShowMeAl 研究 中 心 
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接着 开局 NameNode 和 DataNode 守护 进程 。 


co 属 外 SiE 和 角 CSAEielooo 
./sbin/start-dfs.sh +#statrt-dfs.sh 是 个 完整 的 可 执行 》 


知 出 现 如 下 SSH 提 示 ， 输 入 yes 即 可 。 
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启动 完成 后 ， 可 以 通过 命令 jps 来 判断 是 否 成 功 启 
动 ， 若 成 功 启动 则 会 列 出 如 下 进 

程 : “NameNode"”、?”DataNode” 和 
“SecondaryNameNode” 


Hadoop 档 建 & 配 置 al g-M1:Jusr/tLocaL/hadoops jps 
局 


ode 


搜索 | 微 信 ShowMeAl 研究 中 心 
中 http:/www.showmeaitechy 


成 功 启动 后 ， 可 以 访问 Web 界 

面 httpP://Localhost:50070 查看 NameNodae 

和 Datanode 信息 7 还 可 以 在 线 碍 看 HDFS 中 的 文 
作 。 
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10. 运 行 Hadoop 伪 分 布 式 实例 


上 面 的 单机 模式 ，grep 例子 读 取 的 是 本 地 数据 ， 伪 


分 布 式 读 取 的 则 是 HDFS 上 的 数据 。 要 使 用 
HDFS， 首 先 需 要 在 HDFS 中 创建 用 户 目 录 : 


./bin/hadoopP fs -mkdqir -D /user/hadqoop 
上 述 命令 有 以 下 3 种 不 同 的 形态 均 可 使 用 : 


maaqeepe 王 丰 S 
IIEUelerohoeobas 
lgiebesSaaee 避 


接着 将 ./etc/hadoop 中 的 xml 文件 作为 输入 文件 
复制 到 分 布 式 文件 系统 中 ， 即 

将 /usr/local/hadoop/etc/hadoop 复制 到 分 布 式 
文件 系统 中 的 /user/hadoop/input 中 。 命令 如 
下 


是 oowAnoEieleola 三 Cs 和 oible 
二 ASGCePp 王 sbDUE EEC 放 iaaoeB 和 mt 


复制 完成 后 ， 可 以 通过 如 下 命令 查看 文件 列表 : 


本 oOWUEelGoloES EL 人 本 AoE 


伪 分 布 式 运行 MapReduce 作业 的 方式 跟 单机 模式 


相同 ， 区 别 在 于 伪 分 布 式 读 取 的 是 HDFS 中 的 文件 
(可 以 将 单机 步骤 中 创建 的 本 地 input 文件 夹 ， 输 
出 结果 output 文件 夹 都 删 挥 来 验证 这 一 点 ) 。 


./Din/hadoop Jar ./share/hadoop/mapreduce/hadooPp 


查看 运行 结果 的 命令 (查看 的 是 位 于 HDFS 中 的 输 
出 结果 ) : 


是/AoEAERGOOEEESEECSEONIEODE 


结果 如 下 ， 注 意 到 刚才 已 经 更 改 了 配置 文件 ， 所 以 
运行 结果 不 同 。 
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11. 安 装 Hadoop 集 群 


初次 学 习 ， 伪 分 布 式 完 整 的 功能 已 经 具备 了 ， 足 够 
使 用 。 如 果 需 要 安装 Hadoop 集群 ， 请 查看 


Hadoop 集 群 安 装配 置 教程 (https:/github.comy/ 
heibaiying/BigData-Notes/blob/masternotes/ 
installation/ ) 。 


12. 参 考 资 料 


。 http:Whadoop.apache.org/docs/stable/hadoop- 
project-disthadoop-commonm/ 
SingleCluster.html 

。 http:/www.cnblogs.com/Xxia520pi 
archive/2012/05/16/2503949.html 

。 http:/www.micmiu.corybigdata/hadoop/ 
hadoop-2x-ubuntu-build/ 


【大 效 据 反 术 与 处 理 】 推 荐 阅 


读 


图 解 大 数据 | 大 数据 生态 与 应 用 导论 
图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

图 解 大 数据 | Hadoop 系 统 拱 建 与 环境 配置 @ 实 


操 案 例 


。 图解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数 据 库 
查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
2 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交易 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 音 乐 专 辑 数 据 
@ 综 合 案例 

。 图 解 大 数据 | Spark Streaming @ 流 式 数 据 处 
理 

。 图解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
旱 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
避 


。 图解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 上 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 

。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 

。 深度 学 习 教程 : 吴 恩 达 专 项 课程 全 套 笔 记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 课 
呈 带 学 与 全 套 笔 记 解读 


Sh@w Me Al 


ee | 应 用 Map- 
Reduce 进 行 大 效 据 统计 @ 买 
操 案 例 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123359125 


ShowMeAl ”国人 


研 究 中 时 国 几 sa 国 xs 本国 so 语 国 着. 帮 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/84 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/170 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
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收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.5| 言 


本 教程 ShowMeAI 详 细 给 大 家 讲解 Hadoop 使 用 
Map-Reduce 进 行 数据 统计 的 方法 ， 关 于 Hadoop 与 
map-reduce 的 基础 知识 ， 大 家 可 以 回顾 ShowMeAI 
的 基础 知识 讲解 篇 分 布 式 平台 Hadoop 与 Map- 
reduce 详 解 。 


尽管 大 部 分 人 使 用 Hadoop 都 是 用 java 完 成 ， 但 是 
Hadoop 程 序 可 以 用 python、C++、ruby 等 完成 。 本 
示例 教 大 家 用 python 完 成 MapReduce 实 例 统 计 输 入 
文件 的 单词 的 词 频 。 


. 输入 : 文本 文件 

。 输 出 : 单词 和 词 频 信息 ， 用 \t 隔 开 
2.Python 习 现 MapReduce 
代码 


使 用 python 完 成 MapReduce 需 要 利用 Hadoop 流 的 
API， 通 过 STDIN( 标 准 输入 )、STDOUT( 标 准 输出 ) 
在 Map 函 数 和 Reduce 函 数 之 间 传 递 数 据 。 


我 们 会 利用 Python 的 sys.stdin 读 取 输 入 数据 ， 并 把 
我 们 的 输出 传送 给 sys .stdout。Hadoop 流 将 会 完 
成 其 他 的 工作 。 


一 个 抽象 的 Hadoop 大 数据 处 理 流 程 如 下 图 所 示 : 


二 | 
导 | 客 
Map-Reduce 纪 一 上 人 
下 己 
和 上 国 志 
国 
全 | 寺 
一 呈 
全 | 


oOwMeAl1 研究 中 心 


人 中 httpwww.showmeaitechy 


对 于 本 文 提 到 的 任务 ， 我 们 做 一 个 更 详细 的 拆 解 ， 
整个 Hadoop Map-Reduce 过 程 如 下 图 所 示 : 


CD Map 函 数 按照 key 排 序 Reduce 函 数 马 
ae 超大 文本 函数 读 取 输 入 文本 。 将 有 相同 key 的 儿 ”收集 和 统计 同一 个 四 
产生 一 序列 键 值 对 值 对 排 在 一 起 key 的 value 并 输出 ed 


Map-Reduce 


中 http:Wwww.showmeaitechy 


从 上 图 ， 我 们 可 以 看 到 ， 我 们 在 当前 任务 中 ， 需 要 
核心 通过 代码 完成 的 步骤 是 : 


。Map : 产生 词 与 次 数 标记 键 值 对 
”Reduce : 聚合 同一 个 词 (key) 的 值 ， 完 成 统计 


下 面 我 们 来 看 看 ， 通 过 python 如 何 完成 这 里 的 Map 
和 Reduce 阶段 。 


2.1 Map 阶 段 : mapper.py 
在 这 里 ， 我 们 假设 map 阶 段 使 用 到 的 python 脚 本 存 


放 地 址 为 ShowMeaAT/hadoop/code/mapper .py 


#!1/usr/pbin/env Python 

DGEeSNXS 

二 下 
Line = Line.strip() 
worqds = Line.SsSpPlLit() 
OFEWOsdEann 量 WOdSsE 


NSSNE SSEqR 人 |) 
解释 一 下 上 述 代 码 : 


。 文件 从 STDIN 读 取 文 件 。 

。 把 单词 切 开 ， 并 把 单词 和 词 频 输 出 STDOUT。 

。 Map 脚 本 不 会 计算 单词 的 总 数 ， 而 是 直接 输出 
1(Reduce 阶 段 会 完成 统计 工作 ) 。 


为 了 使 脚本 可 执行 ， 增 加 mapper.py 的 可 执行 权 
限 : 


chmoq +XxX ShowMeAI/hadoop/codqe/mapPer .Py 


2.2 Reduce 阶 段 : reducer.py 
在 这 里 ， 我 们 假设 reduce 阶 段 使 用 到 的 python 脚 本 


存放 地 址 为 ShowMeaAT/hadqoop/code/reducer .py 


#!1V/usr/pbin/Venv Python 
from operator import IIemdget 七 eL 


DOESVS 
CUTTent_wWordad = None 
CUrent 本 coU 三 硬 0 


Word = None 


二 仙人 届 于 天王 三 全 全 


Line = Line.strip() 

WROTE ES 及 有 人 

EC 
Count 量 三 二 TELCOUnnty) 

except ValueError:  #count 如 果 不 是 数字 的 话 ， 直 接 
Continue 

If current_word == WOLFd: 


np 的 MenERGXonbneuE OICeexpione 


else : 


JETCI EECOEGE 
STRE5SU Ti 用 昌 WGiG CUEEI 
站 区 向 =OEEEerelpauE exeXpiaiE 


CUTTent_ Wordad = WOLFdQ 


1IfE woraQ == CUTTent_ worda : # 不 要 忘记 最 后 的 输出 


站 ESINESS EnE 本 WOLEQRECUDEEER 二 Coun 


文件 会 读 取 mappPper .PyY 的 结果 作为 redqucer .PyY 的 
输入 ， 并 统计 每 个 单词 出 现 的 总 的 次 数 ， 把 最 终 的 
结果 输出 到 STDOUT。 


为 了 是 脚本 可 执行 7 增加 redquceLr .PyY 的 可 执行 权 
限 


chmoq +x ShowMeAI/hadqoop/codqe/redqucer .py 


3. 本 地 测试 MapReduce 流 程 


通 弟 我 们 在 把 数据 处 理 流程 提交 到 集群 进行 运行 之 
前 ， 会 本 地 做 一 个 简单 测试 ， 我 们 会 借助 inux 的 管 
道 命令 〈cat data | map | sort | reduce) 对 
数据 流 进 行 串 接 ， 验 证 我 们 写 的 mapper.py 

和 reducer.py 脚 本 功能 是 否 正常 。 这 种 测试 方 
式 ， 能 保证 输出 的 最 终结 果 是 我 们 期 望 的 。 


测试 的 命令 如 下 : 


cq_ ShowMeAI/hadoop/vcode/ 
ecnon Ecocouux acstoccae ou Python m 


SSEnoa aooaoo cioS nsooaoEecIEbcs 济 Pyth 


其 中 的 sort 过 程 主要 是 完成 以 Key 为 基准 的 排序 ， 方 


便 reduce 阶 段 进行 聚合 统计 。 


入 


4.Hadoop 集 群 运行 python 代 
码 


4.1 数据 准备 


我 们 对 以 下 三 个 文件 进行 词 频 统 计 ， 先 根据 下 述 
径 下 载 : 


。 Plain Text UTF-8 http:/www.gutenberg.org/ 
ebooks/4300.txt.utf-8 

。 Plain Text UTF-8 http:/www.gutenberg.org/ 
ebooks/5000.txt.utf-8 

。 Plain Text UTF-8 http:/www.gutenberg.org/ 
ebooks/20417.txt.utf-8 


将 文件 放置 到 ShowMeAI/haqdoop/datas/ 目录 下 。 


4.2 执行 程序 


把 本 地 的 数据 文件 拷贝 到 分 布 式 文件 系统 HDFS 
中 。 


bin/hadoop qdqfs -copyEromLocal ShowMeAI/hadoopy/da 


叫 


看 : 

bin/hadoop dfs -1s 
但 看 具体 的 文件 : 

bin/hadoop qdqfs -1Ls /user/showmeai/hadfs_ in 
执行 MapReduce job : 


bin/XhaqdqoopP jar contrib/streamind/nhadoop-*streami 


-file ShowMeAI/hadqoop/code/mappPer .Py -ImapPPeL 
-file ShowMeAI/hadoocop/code/reqdqucer .py -tedquce 
-input /user/showmeai/hadfs_ in/r* -OutpPut | /user 


实例 输出 : 


eaz/] 0 庆 
14/07105 
la107105 
la167405 
14707/05 
Map-Reduce 14/07/05 
七 racker=]1oca 
4707705 
ob 201407053 
4767105 
14107105 
14407405 
14107105 
14707105 
14167105 
14/07/05 


/atreamjob2605857412712772942.jar tmpDir~null 

INFO mapred,FileInputFormat: Total input paths to process 

INFO streaming ,streamJob* getLocalpirs(): [/tmp/hadoop-rte/mapred/local] 

INREO streaming .StreamJab: Rnning 201407052040_0003 

TNFO streaming-streamJcb: To xill this job，runs 

20 TNFO streaming -StreamJab: /home/rte/hadoop“0.20.21bin/../bin/hadoop job -pmap 感 
9001 -kill job 201407052040_0003 

0 streaming,StreamJoh 


acking URL; httpi//1ocalhost;50030/jobdetails。 


1 INFO streaming ,StreamJob: map 0 reduce 0 

28 INFO streaming ,StreamJob: map 33E 。 reduce 04 

31 INFO streaming StreamJob: map 1009 reduce 0 和 

TNFO ap 100$ reduce 224 

TIREFO map 1008 reduce 100 人 

INRFO 3 Job complete: job_201407052040_0003 
TIREO .StreamJoby Output: /user/zteJhafs_out2 


20:51 


洁 ShowMeAl 研究 中 心 ] 


www.showmeaitechy 


查看 输出 结果 是 否 在 目标 目 


录 /user/showmeai/nhdfs_out : 


bin/hadoop qdqfs -1Ls /user/showmeai/nhdfs_ out 


bin/haadoop aqfs -cat /user/showmeai/nhdfs_out2/Par: 


输出 : 


[一 
youre 吁 


yourn 
yours 
yours， 
yours 
Map-Reduce Yours? 
yourself 
Yourselfl 
Yourself， 
yourself, 
YourselfE7 
yourself? 
yourselves 
yourselves . 
yourselves: 
Yous 于 本 


youth 29 ( 担 索 | 微 售 ShowMeAl 研究 中 心 


Rumbha 


PPomnpamPe 


/www.showmeaitechy/ 


5.Mapper 和 Reducer 代 码 优 


化 


5.1 python 中 的 友 代 器 和 生成 器 


ee 

器 和 生成 器 ， 对 这 个 部 分 不 熟悉 的 同学 可 以 参考 
ShowMeAI 的 python 部 分 内 容 一 《图 解 python | 
代 器 与 生成 器 》 。 


本 


5.2 优化 Mapper 和 Reducer 代 码 


mapPer .Py 

#1!1V/usr/pbin/Venv Python 

Sm 全 巧 SS 

aqef readq_input (file) : 
for Line in file: 


YeTadne 现 SEN (人 


aef main(sepParcatoc=' Nt ) : 
qata = freadq_input (sys.staqin) 
ReNiSWLeiSeIE WooEREE 汪 
GTFEwWonmdETnwWemadse 


DFInot sssssao SLCOAL SSCaeahor，，1 工 


下 mame == "main  ": 


main () 


zedqucer .PyY 

#1!1V/usr/pbin/Venv Python 

from operator import 1ILemdgetteL 
上 上 了 在 芋 放 总 王 SS 训 王 在 全 避 让 本 已 世 


WO ES VS 


qdqef readq_mapper_output (file，separator = !'\t') : 


ON SIE 


YETIQORRRAe 本 Si 八 三 SuicitseseaaEof， 工 ) 
qef main(separator = Nt) : 
Qqata = read_ mapper_output (SySs .stadin separat 


Op 有 ，1Lel 
E 
EeealEEeCOni 旺 三 本 Sunantateeaiice DT CUE 
PLEInLt "gS 节 SS5d" 当 (CUTTent_ Word Sepa 
exXCept ValueError : 


Pass 


吕 信 mame 三 三 和 TS 


main () 


我 们 对 代码 中 的 groupby 做 一 个 简单 代码 功能 演示 
讲解 ， 如 下 : 


主 天 辣 而 肌 于 全 全 开 和 CLST anRESEECEGSUPRY 


from opPerator import 1ILemdgetteL 


aieis 主 三 油 了 区 人 区 似 0 儿 二 人 光一 介 攻 于 
200 O2e ES) 光 
OBE 
人 200902EUS RH 克 
人 0000 
007 


SSSs = groupby (things，，， iemgetter (0) ) 
EOKEeyAEEEms 二 是 SSS 
PEInt Key 
for Subitem in items : 
TS loneemi 


RE 2 


200S0SS0 儿 
00 
全 0 


US 
0) 
000 加 人 
全 003) 


20UUSE0S8=UG 
0000 二 ) 


代码 中 : 


。 groupby (things，itemgetter(0)) 以 第 0 列 为 
排序 目标 

。 groupby (things，itemgetter(1)) 以 第 1 列 为 
排序 目标 

。 groupby (things) 以 整 行为 排序 目标 


6. 参 考 资料 


。 python 中 的 split 纯 数 中 的 参数 问题 http:/ 
segmentfault.com/q/1010000000311861 


。 Writing an Hadoop MapReduce Program in 
Python http:/www.michael-noll.corntutorials/ 
writing-an-hadoop-mapreduce-program-in- 
pythom/ 


。 Shell 的 sort 命 令 的 -k 参 数 http:/ 
blog.chinaunix.net/uid-25513153- 


id-200481.html 


【大 数据 技术 与 处 理 】 推 荐 阅 
读 


。 图解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图 解 大 数据 | Hadoop 系 统 搭建 与 环境 配置 @ 实 
操 案 例 

。 图 解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图 解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数据 库 


查询 

。 图 解 大 数据 | 大 数据 分 析 挖 掘 框 避 @Spark 初 
沙 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 


。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 


塞 


数据 | 使 用 Spark 分 析 挖 掘 零 售 交易 数据 
例 

数据 | 使 用 Spark 分 析 挖 掘 音 乐 专辑 数据 
列 
辐 解 大 数据 | Spark Streaming @ 流 式 数据 处 


I》 站 
油 迁 狂 六 杀 


am 


站 落 站 


。 图解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 厂 技 术 实 现 : 自然 语言 处 理 行业 解决 方案 
。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 


。 图 解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 
。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系列 
。 深度 学 习 教 程 : 吴 恩 达 专 项 课程 . 全 套 笔 记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 . 课 
程 带 学 与 全 套 笔 记 解 读 
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收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.Hive 搭建 与 配置 


大 数据 生态 中 最 重要 的 工具 平台 之 一 是 Hive， 它 是 
离线 计算 的 关键 组 件 ， 常 用 于 数 仓 建 设 ， 在 公司 内 
会 通过 SQL 实现 大 数据 的 统计 与 报表 。 下 面 来 看 一 
下 Hive 的 找 建 和 配置 使 用 方法 。 


1 ) 下 载 Hive 


安 疼 Hive 过 程 可 以 参考 官方 文档 : https:/ 
cwiki.apache.org/confluence/display/Hive/ 
GettingStarted。 


按照 文件 建议 在 http:/www.apache.org/dyn/ 
closer.cgihive/ 下 载 最 新 的 release， 这 里 以 
Hive3.1.3 为 例 讲解 。 


把 安装 文件 解压 到 安装 有 hadoop 环 境 的 机 器 上 


FootQeubuntu:~/pbidgqata# 1 工 

ECGIEEUUR 0 

aaa aa 2 is ee 1 
WE 区 2OoEEOGE 人 GUO 用 所 6 
园 下 克文 下 三 广 下 三 文生 由 过 下 站 0 性 必 6 ee 0 2 
加 下 WXT 二 福王 XIOCEEEEOCE WU26 OCR 5 


昌 ZKabal 
Qemo/ 
haaqoop 


PhRive 一 3 


加 节奏 区 下 二 文王 二 又 关 各 忆 王 WOWOERE 人 0 26 王公 8 量 0 人 35PDazkK 一 
rootQeQubuntu:~/ pigdqata# Pwd 
ee 局 Teoadaea 


接 下 来 把 Hive 的 bin 目 录 导 出 PATH : 


FootQeubuntu:~/pbigqata# cat /etc/profile.dq/java.s: 
eXpPort PATH=/usr/Local/Jjdqk/pbin:/root/pbiddqata/had 


升级 guava 依 赖 为 hadoop 版 本 : 


maoeoav7a=o9w0aSac ROSS 三 9 三 0 网 本 三 开采 让 
ln -s /root/bigdqata/hadoop-3.3.0/share/hadQoop/h 


Fr 


述 第 一 条 命令 先 备 份 了 Hive 自 带 的 guava 依 赖 
包 ， 然 后 将 hadoop 自 带 的 更 高 版 本 软 链 过 来 ， 这 个 
版 本 一 致 性 是 Hive 正 常 运行 的 关键 之 一 。 


2 ) 安 疼 MYSQL 


hive 的 元 数据 服务 是 独立 部 署 的 ， 它 基于 mysdl 保 存 
数据 。 可 以 使 用 apt 命 令 在 ubuntu 环境 安装 oracle 
mysq| : 


apt-get instal1 mysdq1L-SerVeL 


如 果 使 用 YaSGJ 一 .DGaLhes 一 疝 DB -pb 登录 
时 ， 提示 access qdqenied ， 那 需要 找到 和 删 

除 mySsSdG1L UserL 表 中 的 一 条 OocalLhost 的 特殊 规 
则 : 


Qelete from User whetre UseLr='" Liroot” andq Host=” 11oc， 


本 bSie SS 辐 耻 和 国史 琴 乓 DSS7 
接着 创建 hive 数 据 库 : 
create qatabase hive， 


接着 通过 wget 命 令 下 载 xzpBc mysql， 并 把 该 Jar 放 
到 hive 的 lib 目 录 下 〈 hive metastore 服 务 将 用 该 
JDBC 驱 动 连接 mysql 读 写 元 数据 ) : 


wdet https://repol.maven.ordgd/maven2/mysd1LV/mysdlL- 


INEINNSeU SeCNSGEOE 本 二 交 遇 二 攻 二 亲 庆 这 员 昌 g 


3 ) 配置 Hive 
Hive 会 自动 加 载 Conf/nhive-site.Xxrml 配置 文件 ， 


官方 在 conf/nhive-dqefault.xml .temp1Late 提供 了 


一 个 模板 文件 ， 里 面 是 Hive 加 载 不 


到 hive-site.xml 时 使 用 的 默认 值 ， 可 以 参 

考 conf/hive-default .xml.template 来 填 

与 hive-site.xml， 下面 是 一 个 配置 好 的 样本 (只 
配置 了 必要 项 ) : 


xzootaeubuntu:~/bigdqata/hive-3.1.3# cat conf/nhive- 
<?xml Version="1.0"” encoding="UTE-8" standalone= 


<?Xm1L-stylesheet type="text/xs1L" href="conftidgdura 


eeonfahoueaieaeohn 芝 

spDeopemmes 之 
<Dname>hive.cli.pPrint.header</nam 
<ValLue>true</valLue> 
<dqescription>Wwhether to Pint 七 hn 

< 过 

<pFopemts 全 
<mname>]javax. jdo.option.Connectio 
<Value>jdqbc:mysdl://1LIocalhost:33 

</PFOPeTrty> 

<peeoeemt 之 
<mame>]jav7ax. jdo .option.Connectio 
<Value>com.mysdlLl .cj.jdqbc.DriVer< 

</PFOPeTrty> 

<peoeoeemtsy 全 
<mname>]javax. jdo .option.Connectio 
<ValLue>root</valLue> 

</PFOPeTrty> 


<pepemty 之 


<mname>]javax. jdo.option.Connectio 
<ValLuUe>XXXXX</ValLue> 
</PFOPeTrty> 
Dopenstes 人 之 
<name>hive .metastore.uris</name> 
KaEOS 过 En 下 证 OcalheosEesp083</: 
加 时 SC 人 下 让 芷 二 四 有 二 工 放 了 主人 DR 王 和 5f 七 he 
</PFOPeTrty> 


AGGRE 


其 中 核心 的 项 目 解释 如 下 : 


。 hive.cli.print.heaqer ， Hive 命 令 行 工 具 将 
打 Ehtable 的 表 头 ， 方 便 阅 读 结果 

。 javax. jdo.option.ConnectionURD : 数据 库 
JDBC URL， 这 里 就 是 mysql 的 Hive 数 据 库 

。 javax. jdqo.option.ConnectionDr1IVerName ， 
JDBC 类 名 ，8.x 版 本 Mysql jar 的 类 名 有 所 变 
化 ， 需 要 注意 

。 javax. jdqo.option.ConnectionUserName ， 
mysdq|I 用 户 名 

。 ]javax. jdqo.option.ConnectionPassword ， 
mysdl 密 码 

。 hive.metastore.uris : 启动 metastore 服 务 的 


监听 地 址 


4 ) 启动 metastore 服 务 
先 执行 Hive 建 表 命 令 ， 完成 mysd| 元 数据 建 表 : 


bin/schematool -qdqbType mysdql -initSchema 


执行 命令 : 


nohuPp hive -SerVice metastore & 


服务 将 监听 在 localhost:9083 端口 ， 生 产 环 境 需 
要 让 host 是 可 以 被 其 他 服务 器 访问 到 的 ， 因 为 访问 
metastore 服 务 的 客户 端 不 一 定 在 本 机 。 


现在 命令 行使 用 Hive 命 令 ， 将 会 自动 根 
据 hive--site .Xml 连接 到 metasSstore 服务 运行 


Hive 命 令 做 一 下 测试 : 


zootQubuntu:~/pbigdata/hive-3.1.3# hive 


SiRJUe CasSs5aehnecoeneanns 束 miSESRTie 芝 STRR4URP1Indin 
NE 
S 民 人 本 ODNnQEE5anaingn 三 后 电 莹 全 人 生 Coi 权 haQata/ 
SILE4J: See httpP://www.s1Lf4j.org/codes .htm1lL#mul 蕊 了 
SLE4J: Actual bindqinda is of type [ord.apache .Lod 


REVeSeSSs Oh 了 工 了 攻 三 生 人 0G4b6UE=O5E 456a=28Hose9590495 


CSonng 晤 RESESN2EQEEUsanoEeonmousaieeon 巧 na 了 7: 工 


HiVve Session ID = 959e0cdqa-f8eb-4fc1-pb798-cpb5175 


HivVe-on-MR is qdqeptrecated in Hive 2 and may| not b 


hive> Show dqatabases:; 
OK 

dqatabase_name 
QeEeanmlie 


Time 七 aken: 0.516 seconadqs，Eetchedq: 2 row(Ss) 


Hive 命 令 过 后 进入 ， 可 以 看 到 上 自 市 的 default 数 
据 库 ， 并 且 还 提示 Hive 目 前 使 用 MR 作 为 计算 
引擎 ， 实 际 Hive 建 议 开 始 使 用 spark 或 者 tez 作 
为 SQL 的 搬 层 计算 引擎 ， 未 来 最 终 会 彻 拘 取消 
MPR。 


目前 继续 使 用 MR 作 为 计算 引擎 即 可 ，Hive 会 根据 
hadoop 命 令 自动 找到 hadoop 和 yarn 配 置 文件 ， 最 
终 SQL 是 通过 MR 运 行 在 yarn 上 完成 计算 的 。 


以 上 就 是 Hive 的 完整 搭建 过 程 ， 小 伙伴 们 就 可 以 欢 
快 地 开始 使 用 Hive 了 。 


2.Hive 应 用 案例 


本 案例 对 视频 网 站 的 数据 进行 各 种 指标 分 析 ， 为 管 
理 者 提供 决策 广 持 。 


1 ) 需求 描述 


统计 youtube 影 音 视 频 网 站 的 常规 指标 ， 各 种 TopN 
指标 : 


统计 视频 观看 数 Top10 

统计 视频 类 别 热度 Top10 

统计 视频 观看 数 Top20 所 属 类 别 

统计 视频 观看 数 Top50 所 关联 视频 的 所 属 类 别 | 
Rank 

统计 每 个 类 别 中 的 视频 热度 Top10 
统计 每 个 类 别 中 视频 流量 Top10 
统计 上 传 视 频 最 多 的 用 户 Top10 以 及 他 们 上 传 
的 视频 

统计 每 个 类 别 视 频 观 看 数 Top10 


2 ) 项 目 表 子 段 


人 钢 频 表 


字段 备注 详细 描述 


video id 视频 唯一 id 11 位 字符 串 


uploader 


age 


category 


length 


Views 


rate 
ratingSs 


conments 


related ids 


用 户 表 


字段 
Uploader 
Videos 
friends 


钢 频 上 传 者 


视频 年 龄 


钢 频 长 度 


观看 次 数 


视频 评分 


> 六 旦 
/ 儿 星 


评论 数 


相关 视频 id 


备注 


上 传 者 用 户 名 


上 传 视频 数 
朋友 数量 


上 传 视 频 的 用 户 
名 String 
视频 在 平台 上 的 
整数 天 

上 传 视 频 指 定 的 
视频 分 类 

整形 数字 标识 的 
视频 长 度 


钢 频 被 浏览 的 次 
数 

满分 5 分 
钢 频 的 流量 ， 整 
型 数字 

一 个 钢 频 的 整数 
评论 数 
相关 人 钢 频 的 id ， 


最 多 20 个 


ETL 原 始 数 据 


通过 观察 原始 数据 形式 ， 可 以 发 现 ， 视 频 可 以 有 多 
个 所 属 分 类 ， 每 个 所 属 分 类 用 符号 分 割 ， 且 分 割 
的 两 边 有 空格 字符 ， 同 时 相关 视频 也 是 可 以 有 多 个 
元 素 ， 多 个 相 天 视频 又 用 \t 进行 分 割 。 


为 了 分 析 数 据 时 方便 对 存在 多 个 子 元 素 的 数据 进行 
操作 ， 首 先进 行 数据 重 组 清洗 操作 。 即 : 将 所 有 的 
类 别 用 s 分 割 ， 同 时 去 掉 两 边 空 格 ， 多 个 相 天 视频 
id 也 使 用 < 进行 分 割 。 

核心 要 做 三 件 事情 : 


。 长 度 不 够 9 的 删 掉 
。 视频 类 别 删 掉 空 格 
。 该 相关 钢 频 的 分 割 符 


3 ) 准备 工作 


(1) 创建 Hive 表 
创建 


表 : youtubeviadqeo _ori ，youtubeviadqeo _ user_ori 


创建 


表 :. youtubevidqeo _orc ，youtubeviadqeo_ user_orc 


-- 创 建 : youtubevidqeo_ori 表 
create table youtubeviadqeo ori( 

VidqeoId Stringyv 

OOadem 汪 Scige 

age intyv 

已 世 攻 区 亲 癌 下 二 本 

Emal 

Views intyv 

ae 外 Oaie7 

EGG SC 

Comment Se 本 TnEe 

zelatedqId array<stzring>) 
xzow format qdqelimited 
fields terzminated by TANt" 
Collection items terminatedq by "&" 


Storedq as textfile'; 


-- 创 建 youtubevideo_user_ori 表 : 
Create table youtubevideo _ user_ or ( 
甩 六 Ge 三 SieeigP 
Viadeos intyv 
US 人 有 ANES) 
xzOow format daelimited 
TREE ENNEUESGUSNO AL 


Storedq as textfile，; 


-- 创 建 youtubevideo_orc 表 : 
create table youtubevidqeo _ orc ( 
wdesed 且 Secanioz 
UleademEsteringE 
age intyv 
eatsogorysanray 和 ser7ang 过 
和 可 区 站 是 
Views intyv 
at 人 Ca 
让 二 臣 二 可 二 证 二 和 过 
CommentsS nty， 
relatedIQ arzay<string>) 
cow format aqelimitead fieldqs terminatedqd by 上 Ntn" 
CoOL1lLection items tetrminatedq bpy "&" 


Someqg 王 as 是 CC 


-- 创 建 youtubeviadeo_user_orc 表 
Create table youtubevidqeo _ user_ orc ( 
UPlLloadqer Stzingyv 
WedeosEEIie 
enieis 基 七 让 
上 Oow format qdqelimited 
feilaseEerEmanSeESRDONREL 


SEEeaSiGIEISARenae 


(2 ) 导入 ETL 后 的 数据 


Youtubevideo_ori ， 


业 Sadq 有 aa 二 5 本 所 七 有 昌 人 AOUEEnEeAOuEoe 苹 eaanto 七 al] 


Youtubevideo_user_ori . 


Joad qdqata inpath "/youtube_vidqdeo/user'" into 七 ab1l 


(3 ) 向 ORC 表 插入 数据 


youtubeviadqeo orc ， 
inSsetrt Overwrite table Youtubevidqeo orc Select 
youtubeviadqeo _ user_orc ， 


insetrt into table Youtubeviadqeo_ user orc select 


3. 业 务 分 析 


1 ) 统计 饮 频 观看 数 top10 


思路 : 使 用 order by 按照 views 字 段 做 一 个 全 局 排序 
即 可 ， 同 时 设置 只 显示 前 10 条 。 


Si 人 业 Vidqeoid， 
UPLoader， 
agev 
Gaeegeny7 
engthy 
Viewsy 
zateyv 
让 全 臣 二 人 可 S7 
Comment S 
EROM youtubevideo orc 
四 展 本 本 及 本 生生 人 信人 二 让 本 SET 二 玫 > 


-- 方式 2SELECT r 


上 ROM 人 
SELECT andecnd2 
agev 
categecry7 
engthy 
Viewsy 
Row_number () OVERI( ORDE 
EROM Youtubeviadeo orc ) 七 
克昌 民 展 是 臣 实 家 人 下 二 二 站， 


2 ) 统计 钢 频 关 别 热度 Top10 


思路 : 即 统计 每 个 类 别 有 多 少 个 视频 ， 显 示 出 包含 


视频 最 多 的 前 10 个 类 别 。 


。 O@ 需要 按照 类 别 group by 聚合 ， 然 后 count 组 
内 的 videold 个 数 即 可 。 

。Q@ 因为 当前 表 结 构 为 : 一 个 视频 对 应 一 个 或 多 
个 类 别 。 所 以 如 果 要 group by 类 别 ， 需 要 先 将 
类 别 进行 询 转行 (展开 ) ， 然 后 再 进行 count 即 


可 。 
。G@) 最 后 按照 热度 排序 ， 显 示 前 10 条 。 
0 硬 环 GE CategeryEnmarme Aswcatkegcrmy 
GeUunmiatelg oaecnaehAe 二 hok 
上 ROM 人 


多 GJE YeiSepe 攻 
categoryenmame 
EROM youtubeviadeoco orc Lateral : 
GEROUREEERBYelRcCaEedoneyename 
民力 攻 民 下 攻 和 交 E 有 攻 STEEL 


3 ) 统计 出 视频 观看 效 最 高 的 20 个 钢 频 
的 所 属 关 别 以 及 拓 列 包含 Top20 仙 频 的 
个 数 


思路 : 


。O@ 先 找 到 观看 数 最 高 的 20 个 视频 所 属 条 目的 所 
有 信息 ， 降 序 排列 

。G@) 把 这 20 条 信息 中 的 category 分 裂 出 来 ( 列 转 
行 ) 

。@ 最 后 查询 视频 分 类 名 称 和 该 分 类 下 有 多 少 个 
Top20 的 视频 


0 而 9GME categoryenmanme AScategory- 
BeumnltatE2Rwmasoa) 要 六 S 是 ee 芋 WEh 是 VEeWSs 
上 ROM 人 
SELECT Videoid， 
Categoenrysmarme 
上 ROM 人 
多 辣 EN 村 
EROM youtube 
ORDER BY Views D 
GROUP BY categdory mame 
国民 天 攻 民 局 G 臣 本 WIRES 让 ESGC5 


4 ) 统计 每 个 类 别 中 的 视频 热度 Top10 ， 
以 Music 为 例 
思路 : 


。@ 要 想 统 计 Music 类 别 中 的 视频 热度 Top10 ， 


需要 先 找到 Music 类 别 ， 那 么 就 需要 将 
category 展 开 ， 所 以 可 以 创建 一 张 表 用 于 存放 
categoryld 展 开 的 数据 。 

。Q@) 向 category 展 开 的 表 中 插入 数据 。 

。@ 统计 对 应 类 别 (Music ) 中 的 视频 热度 。 


-- 创 建 表 类 别 表 : 
CREATE ITABTLE youtubevideo_ catedqdory 
( 

Viadeoid STRING， 
UPLoadqer STRING， 
SETNT 
catedgqoryidq STRING， 
下 写 页 可 二 TINT7 
Views INT， 
zate ELOAT， 


号 鸭 TGSASTNU 


Comments INI， 
relatedqidq ARRAY<StLTrInd 
) 


上 OW format aqe1limited fieldqs 七 efmina 


-- 向 类 别 表 中 插入 数据 : 
INSERT INTO table youtubeviadeo_categqgory 
SCANOIEGOREOE 

UPLoader， 


agey， 


Catedqoryidv 
Lengthy 
Viewsyv 
zatev 
TS 
Commentsv 
relatedqid 

了 上 ROM 


youtubevideo orc 1Lateral View explode (cat 


-- 统 计 Music 类 别 的 Top10 (也 可 以 统计 其 他 ) 


SS 了 天 耐候 灿 Vidqeolid， 

Views 
EROM youtubevideo_ category 
WHERE catedgdoryid = "Musicn" 


RERSBSEEWS 本 局 EGGTTinaea lg 


-- 方式 2SELECT x* 


全 | 
总 局 且 CT 
上 ROM 
从 再 王 有 也 
再 再 民 本 全 是 过 三 要 丽 0 


Viaecaia ， 
agev 
Catedgqoryidv 
engthy 
Viewsyv 
Row_number () OVERI( ORDE 
youtubevidqeo_category 


Catedgoryid = "music" ) 七 


5 ) 统计 每 个 人 类别 中 视频 流量 Top10 
思路 : 


。O@ 创建 视频 类 别 展 开 表 (categoryld 列 转行 后 
的 表 ) 
。O@) 按照 ratings 排 序 即 可 


交 罗 辣 HENN 
上 ROM (SEERETE GecTG， 
agey7 
EeeSdG5 
Lendgthy， 
zatingsyv 
Row_numpber () 
OVER ( 
aoOnERBYEeaEegorsasd 
局 肛门 本 民有 全 EnosDESC) RS TYn 
EROM youtubevideo category) 七 
全 再 玉民 下 巧 二 攻 有 和 三 芋 0O; 


6 ) 统计 上 传 钢 频 最 多 的 用 户 Top10 以 及 
他 们 上 传 的 观看 次 数 在 前 10 的 视频 


思路 : 


。O@ 先 找到 上 传 视 频 最 多 的 10 个 用 户 的 用 户 信息 

。 @) 通过 uploader 字 段 与 youtubevideo We 
行 join， 得 到 的 信息 按照 views 观 看 次 数 进行 排 
序 即 可 。 


-- 第 一 
EC 
EROM youtubevidqeo user_orc 
口 民 站 下 民有 TeSS RS 
区 
到 王 记 二 芭 史 
下 下 人 下 二 2 二 idSEoOne 
人 2 
七 2 .Viewsy， 
和 
RSSEGCS 
TENGS 
了 上 ROM (下 再世 GE 
EROM youtubeviadeo_ user_orc 
四 展 忆 相依 本 生生 县 全 ES 
ET 
JOIN Youtubevideo orc 七 2 
GONEEELRWDICSaS 三 是 蕊 2RUblecade 
ORDER BY Views DESC 
0 


【大 数据 技术 与 处 理 】 推 荐 阅 
读 


。 图解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图 解 大 数据 | Hadoop 系 统 搭建 与 环境 配置 @ 实 
操 案例 

。 图 解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数据 库 


查询 

。 图 解 大 数据 | 大 数据 分 析 挖 掘 框 如 @Spark 初 
消 

。 图 解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 


。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 零 售 交易 数据 


。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 三 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 
。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 


。 识 度 学 习 教 程 : 吴 恩 达 专 项 课程 全 套 笔 记 解 


读 


。 自然 语言 处 理 教程 : 斯 坦 蛋 CS224ni 识 程 . 课 
呈 带 学 与 全 套 笔 记 解读 


She@w MeAl 


到 解 大 数据 | Hive 与 HBase 详 
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收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1. 大 效 据 与 效 据 库 


1) 从 Hadoop 到 数据 库 


大 家 知道 在 计算 机 领域 ， 关 系数 据 库 大 量 用 于 数据 
存储 和 维护 的 场景 。 大 数据 的 出 现 后 ， 很 多 公司 转 
而 选择 像 Hadoop/Spark 的 大 数据 解决 方案 。 


Hadoop 使 用 分 布 式 文 件 系统 ， 用 于 存储 大 数据 ， 并 
使 用 MapReduce 来 处 理 。Hadoop 擅 长 于 存储 各 种 

格式 的 庞大 的 数据 ， 任 意 的 格式 甚至 非 结 构 化 的 处 

理 。 


2) Hadoop 的 限制 


Hadoop 非 常 适 合 批量 处 理 任 务 ， 但 它 只 以 顺序 方式 
访问 数据 。 这 意味 着 如 果 要 和 查询， 必须 搜索 整个 数 
据 集 ， 即 使 是 最 简 申 的 搜 么 工作 。 

当 处 理 结 果 在 另 一 个 庞大 的 数据 集 ， 也 是 按 顺 序 处 
理 一 个 巨大 的 数据 集 。 在 这 一 点 上 ， 一 个 新 的 解决 
方案 ， 需 要 访问 数据 中 的 任何 点 (随机 访问 ) 单 


O 


品 | 


3 ) HBase 与 大 数据 效 据 库 、 


HBase 是 建立 在 Hadoop 文 件 系 统 之 上 的 分 布 式 面 
向 列 的 数据 库 。 


HBase 是 一 个 数据 模型 ， 类 似 于 谷歌 的 Bigtable 设 
计 ， 可 以 提供 快速 随机 访问 海量 结构 化 数据 。 它 利 
用 了 Hadoop 的 文件 系统 (HDFS ) 提供 的 容错 能 
力 。 


它 是 Hadoop 的 生态 系统 ， 提 供 对 数据 的 随机 实时 
读 / 写 访问 ， 是 Hadoop 文 件 系 统 的 一 部 分 。 我 们 可 
以 直接 或 通过 HBase 的 存储 HDFS 数 据 。 使 用 
HBase 在 HDFS 读 取消 费 / 随 机 访问 数据 。 HBase 在 
Hadoop 的 文件 系统 之 上 ， 并 提供 了 读 写 访问 。 


2.BigTable 与 HBase 


要 提 到 HBase， 就 要 顺带 提 到 google 的 Bigtable。 
HBase 是 在 谷歌 BigTable 的 基础 之 上 进行 开源 实现 
的 ， 是 一 个 高 可 靠 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 
布 式 数据 库 ， 可 以 用 来 存储 非 结 构 化 和 半 结 构 化 的 
稀疏 数据 。 


1) 结构 化 效 据 和 非 结构 化 数据 
BigTable 和 HBase 存 储 的 都 是 非 结构 化 数据 。 


结构 化 数据 
表 结 构 规 整 
每 一 行 都 有 固定 的 列 构成 


ES 征 SE ESEEE EEEEE3 荆 s) 量 
PR EPE EN2 Fe 有 EEC 

EN ES FE EPE FEED CEI CE 1EEsee 
下 三 二 二 和 二 = 天 三 下 
FE ED 
三 E 


半 结 构 化 数据 / 非 结构 化 数据 
行 由 看 似 * 杂 乱 无 章 * 的 列 组 成 
生生 闪 中 必 


2 ) BigTable 简 介 


BigTable 是 一 个 用 于 管理 结构 化 数据 的 分 布 式 存储 
系统 ， 构 建 在 GFS、Chubby、SSTable 等 google 技 
术 之 上 。 本 质 上 说 ，BigTable 是 一 个 稀疏 的 、 分 布 
式 的 、 持 久 化 的 、 多 维 的 、 排 序 的 键 值 ( key- 

value ) 映射 。 


BigTable 与 HBase 


网 页 在 BigTable 中 的 存储 样 例 


【| 


过 | 微 信 ShowMeAl 研 究 中心 | 


3 ) HBase 简 介 


。HBase 是 一 个 高 可 靠 、 高 性 能 、 面 向 列 、 可 伸 
缩 的 分 布 式 数据 库 ， 是 谷歌 BigTable 的 开源 实 
现 。 


。 HBase 主 要 用 来 存储 非 结 构 化 和 半 结 构 化 的 松 
散 数 据 ， 目 标 是 处 理 非 营 庞 大 的 表 ， 可 以 通过 
水 平 扩展 的 方式 ， 利 用 廉价 计算 机 集群 处 理由 
超过 10 亿 行 数 据 和 数 百 万 列 元 素 组 成 的 数据 
表 。 


加 
BigTable 与 HBase 的 对 应 关系 


bieTable5HBase 国人 
GFS HDFS 
apReduce Hadoop MapReduci 


4 ) HBase 在 大 数据 生态 环境 中 的 位 置 


HBase 在 大 数据 生态 环境 中 的 位 置 如 下 图 所 示 ， 马 
建立 在 Hadoop HDFS 之 上 的 分 布 式 面向 列 的 数据 
库 。 


BigTable 与 HBase 


5) HBase 的 特点 
如 下 图 所 示 ，HBase 有 以 下 特点 : 


< 
BigTable 与 HBase > > > > > > 


大 面向 列 。 稀 朴 。 。 无 模式 数据 多 版 本 数据 类 型 单一 


。 大 : 一 个 表 可 以 有 上 亿 行 ， 上 百 万 列 。 

* 面向 列 : 面向 列表 ( 禾 ) 的 存储 和 权限 控制 ， 列 
( 族 ) 独 立 检索 。 

。 稀 玻 : 对 于 为 空 NULL) 的 列 ， 并 不 占用 存储 空 
间 ， 因 此 ， 表 可 以 设计 的 非常 稀 踊 。 

。 无 模式 : 每 一 行 都 有 一 个 可 以 排序 的 主键 和 任 
意 多 的 列 ， 列 可 以 根据 需要 动态 增加 ， 同 一 张 
表 中 不 同 的 行 可 以 有 截然 不 同 的 列 。 

。 数据 多 版 本 : 每 个 单元 的 数据 有 多 个 版 本 ， 轩 


认 情 况 下 ， 版 本 号 是 单元 格 插入 时 的 时 间 玲 。 
。 数据 类 型 单一 : HBase 中 的 数据 都 是 字符 串 ， 


没有 类 型 。 


6 ) HBase 的 访问 接口 


特点 场合 
Native Java API 最 常规 和 高 效 的 适合 Hadoop 
访问 方式 MapReduce 作 业 
并 行 批 处 理 
HBase 表 数据 


HBase Shell 


Thrift Gateway 


REST Gateway 


Pig 


HBase 的 命令 行 适合 HBase 管 理 

工具 最 简单 的 接 使 用 

口 

利用 Thrift 序 列 化 适合 其 他 异 构 系 

技术 支持 C++、 统 在 线 访问 

PHP、 Python 等 HBase 表 数据 

解除 了 语言 限制 支持 REST 风 格 
的 Http API 访 问 
HBase 

使 用 Pig Latin 流 适合 做 数据 统计 

式 编程 语言 来 处 

理 HBase 中 的 数 


据 


Hive 简单 当 需要 以 类 似 
SQL 语言 方式 来 
访问 HBase 的 时 
人 

3.HBase 效 据 模 型 


1) 逻辑 存储 模型 


组 件 描述 

表 Table HBase 采 用 表 来 组 织 数 
据 ， 表 由 行 和 列 组 成 ， 列 
划分 为 若干 个 列 族 

行 Row 每 个 HBase 表 都 由 若干 行 
组 成 ， 每 个 行 由 行 键 
(Crow key ) 来 标识 

列 族 Column Family 一 个 HBase 表 被 分 组 成 许 
多 "“ 列 族 ”(Column 
Family ) 的 集合 


列 限 定 符 Column 列 族 里 的 数据 通过 列 限定 
Qualifier 符 (或 列 ) 来 定位 


单元 格 Cell 通过 行 、 列 族 和 列 限定 符 


确定 一 个 单元 格 ， 单 元 格 
中 存储 的 数据 都 视 为 byte 
时 间 戳 Times tamp 同一 份 数据 的 多 个 版 本 ， 
时 间 戳 用 于 索引 数据 版 本 


HBase 中 需要 根据 行 键 、 列 族 、 列 限定 符 和 时 间 玲 
来 确定 一 个 辕 元 格 。 因 此 ， 可 以 视 为 一 个 "四 维 坐 
标 ”， 即 [ 行 键 ， 列 族 ， 列 限定 符 ， 时 间 戳 ] 


| 


[201505003”，“Info". “email", 1174184619081] “xie@qqcom” 


芝 

[201505003"，“Info"，“email', 1174184620720] “you@163.com” 
中 
HBase 数 据 模型 Te 统 
四 维 坐标 一 [ 行 镶 , 列 族 , 列 限定 符 , 时 间 君 中 

name | major emall 该 单元 格 有 2 个 时 间 发 ts1 和 ts2 

站 201505001 | Luo Min | Math |Iuo@qqeom 每 个 时 间 发 对 应 一 个 数据 版 本 
行 键 一 上 .201505002 | Liu Jun JWath 一 | iu@qqcom ts1=1174184619081 

201505003 | Xie Yoy ah | 请 妆 本 珊 人 
和 人 塌 玄 | 微 售 ShowMeAl 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


2 ) 物理 存储 模型 


Table 在 行 的 方向 上 分 割 为 多 个 Region， 每 个 
Region 分 散在 不 同 的 RegionServer 中 。 


HBase 数 据 模型 


Table 在 行 的 方向 上 分 割 为 多 个 Region ”每 个 Region 分 散在 不 同 的 RegionServer 中 


人 检索 | 微 信 ShowMeAl 研究 中 心 


中 http:Wwww.showmeaitechy 


每 个 HRegion 由 多 个 Store 构 成 ， 每 个 Store 由 一 个 
MemStore 和 0 或 多 个 StoreFile 组 成 ， 每 个 Store 保 存 
一 个 Columns Family。StoreFile 以 HFile 格 式 存储 在 
HDFS 中 。 


傅 3 
3 Ti 站 仙人 量 | 
Re SR EEC 
| 网 Er Sore 区 了 
Regi | ea rs 


HBase 数 据 模型 


加 
每 个 Store 由 一 个 Memstor' om 
| ie 组 成 ”上 


4.HBase 系 统 架 构 


1) HBase 架 构 组 件 
HBase 包 含 以 下 三 个 组 件 : 


。Region Server : 提供 数据 的 读 写 服务 ， 当 客户 
端 访问 数据 时 ， 直 接 和 Region Server 通 信 。 
。HBase Master : Region 的 分 配 ，DDL 操 作 ( 创 

建 表 ， 删 除 表 )。 
。 ZooKkeeper : 是 HDFS 的 一 部 分 ， 维 护 一 个 活 
跃 的 集群 状态 。 


HBase 系 统 架 构 


中 http:Wwww.showmeaitechy 


2 ) Region 组 件 


HBase Tables 通过 行 健 的 范围 (row key range) 被 水 
平 切 分 成 多 个 Region。 一 个 Region 包 含 了 所 有 的 在 
Region 开 始 键 (startKey) 和 结束 键 (endKey) 之 内 的 
行 。 

Regions 被 分 配 到 集群 的 节点 上 ， 成 为 Region 
Servers， 提 供 数 据 的 读 写 服务 ; 一 个 Region 
Server 可 以 服务 1000 个 Region。 


加 忆 
HBase 系 统 架 构 本 os 
| ee 站 
一 LS 

TD 


下 ie > 
| 合作 二 | 向 信 sh 研究 中 心 | 


中 http/wwwshowmeaitechy 


3) HMaster 组 件 


HBase 系 统 架 构 


。 分配 Region ，DDL 操 作 ( 创 建 表 ， 删 除 表 )。 

。 协调 各 个 Reion Server : 在 启动 时 分 配 
Region、 在 恢复 或 是 负载 均衡 时 重新 分 配 
Region ; 监控 所 有 集群 当中 的 Region Server 
实例 ， 从 ZooKeeper 中 监听 通知 。 

。 提供 创建 、 删 除 、 更 新 表 的 接口 。 


4 ) ZooKeeper 组 件 


HBase 系 统 架 构 


。HBase 使 用 ZooKeeper 作 为 分 布 式 协调 服务 ， 
来 维护 集群 中 的 Server 状 态 。 

。 ZooKeeper 维 护 着 哪些 Server 是 活跃 或 是 可 用 
的 ， 提 供 Server 失败 时 的 通知 。 


。 Zookeeper 使 用 一 致 性 机 制 来 保证 公共 的 共享 
7 注意 7 需要 使 用 奇 效 的 三 台 或 五 台 机 
器 ， 保 证 一 致 。 


5.Hive 介 绍 


1) Hive 简 介 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 用 于 结构 
化 数据 的 查询 、 分 析 和 汇总 。Hive 提 供 类 SQL 查询 
功能 ， 它 将 SQL 转换 为 MapReduce 程 序 。 


Hive 不 支持 OLTP，Hive 无 法 提供 实时 查询 。 


2 ) Hive 在 大 效 据 生态 环境 中 的 位 置 


3 ) Hive 特 点 


Hive 的 优点 


。 简单 容易 上 手 : 提供 了 类 SQL 查询 语言 HQL。 

。 可 扩展 : 一 般 情 况 下 不 需要 重启 服务 Hive 可 以 
和 目 由 的 扩展 集群 的 规模 。 

。 提供 统一 的 元 数据 管理 。 

。 延展 性 : Hive 广 持 用 户 自 定 义 函 数 ， 用 户 可 以 
根据 自己 的 需求 来 实现 自己 的 兽 效 。 

。 容错 : 良好 的 容错 性 ， 节 点 出 现 问题 SQL 仍 可 
完成 执行 。 


简单 容易 上 手 自由 扩展 集群 规模 各 供 统一 的 元 数据 管理 


2> > 2 
支持 用 户 自 定义 函数 良好 的 容错 性 汤 


? 
HQL 表 达能 力 有 限 由 党 舍 ShowMehi 研 究 中 心 | 


Hive 的 缺点 (局 限 性 ) 


。Hive 的 HQL 表 达能 力 有 限 : 返 代 式 算 法 无 法 表 
达 ， 比 如 pagerank ; 数据 挖掘 方面 ， 比 如 
kmeans。 

。Hive 的 效率 比较 低 : Hive 自 动 生 成 的 
MapReduce 作 业 ， 不 够 智能 化 ; Hive 调 优 比较 
困难 ， 粒 度 较 粗 ; Hive 可 控 性 差 。 


4 ) Hive 与 传统 数据 库 对 比 


ShowNe A 


查询 语言 HQL SQL 瑟 

数据 存储 ca 日 

执行 MapReduce Exeutor 昌 
执行 延迟 高 低 
处 理 数 据 规模 二 小 


索引 0.8 版 本 后 加 入 位 图 索引 有 复杂 的 索引 
| 加 提 索 | 微 信 ShowMeAl 研究 中 心 | 


WEBUI|。 


client 三 种 访问 方式 : CLI、JDBC/ODBC、 


Meta store 元 数据 : 表 名 、 表 所 属 数据 库 、 表 


拥有 者 、 列 、 分 区 字段 、 表 类 型 、 表 数据 所 在 
的 目录 等 ， 默 认 存 储 在 自 这 的 derby 数 据 库 


中 。 
Driver : 解析 器 、 编 译 器 、 优 化 器 、 执 行 


6 ) Hive 中 的 效 据 模型 


二 口 口 
二 
本 下 主 。 


数据 库 (Database) 


Hive 介 绍 


【| 
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Hive 中 所 有 的 数据 都 存储 在 HDFS 中 Hive 中 包含 
以 下 数据 模型 : 


。 表 (Table) 

。 外 部 表 (External Table) 
。 分 区 (Partition) 

。 桶 (Bucket) 


6.SQL 介 绍 与 Hive 应 用 场景 


1) 数据 库 操作 和 表 操 作 


作用 HiveQL 
查看 所 有 数据 库 SHOW DATABASES: 
使 用 指定 的 数据 库 USE database_name: 


创建 指定 名 称 的 数据 库 CREATE DATABASE 
database_name:; 
删除 数据 库 DROP DATABASE 


创建 表 


丛 看 所 有 的 表 
么 持 模糊 簿 询 
查看 表 有 哪些 分 区 


查看 表 结构 
创建 表 并 创建 乏 5|ds 


复制 一 个 空 表 


表 汪 加 一 列 


更 改 表 名 


2 ) 查询 语句 


database_name:; 
CREATE TABLE pokes 
(foo INT, bar STRINGI) 
SHOW TABLES 

SHOW TABLES TMP 
SHOW PARTITIONS 
TMP _TABLE 
DESCRIBE TMP_TABLE 
CREATE TABLE invites 
(foo INT, bar STRING) 
PARTITIONED BY (ds 
STRING) 

CREATE TABLE 
empty_key_value_store 
LIKE key_value_store 
ALTER TABLE pokes 
ADD COLUMNS 
(new_colINT') 

ALTER TABLE events 
RENAME TO 3koobecaf 


选择 所 有 的 数据 
行 算 选 


多 个 限制 条 件 


选择 多 个 特定 的 列 


检索 unique 输 出 记录 
排序 
逆序 


统计 行 数 


HiveQL 
SELECT from_columns 
FROM table WHERE 
conditions: 

SELECT ”* FROM table: 
SELECT * FROM table 
WHERE rec_name = 
“Value”: 

SELECT ”* FROM TABLE 
WHERE rec1 = value1” 
AND rec2 = "value2”: 
SELECT column_name 
FROM table: 

SELECT DISTINCT 
column_name FROM 
table: 

SELECT col1, col2 
FROM table ORDER BY 
col2: 

SELECT col1, col2 
FROM table ORDER BY 
col2 DESC: 

SELECT COUNTO”) 


FROM table: 

且 统 计 SELECT owner， 
COUNT() FROM table 
GROUP BY owner: 


让 
NS 


AN 


求 肝 一 列 最 大 值 SELECT 
MAX(col_name) AS label 
FROM table: 

从 多 个 表 中 检索 信息 SELECT pet.name， 


comment FROM pet 
JOIN event ON 
(pet.name = 
event.name); 


3 ) Hive 的 应 用 场景 


Hive 并 不 适合 需要 低 延 迟 的 应 用 ， 适 合 于 大 数据 集 
的 批 处理 作 业 : 


。 日 志 分 析 : 大 部 分 互联 网 公司 使 用 hive 进 行 日 
志 人 分析， 包括 百 度 、 淘 宝 等 。 例 如 ， 统 计 网 站 
一 个 时 间 段 内 的 pv、uv， 多 维度 数据 分 析 等 

。 海量 结构 化 数据 离线 分 析 。 


4) Hive 和 HBase 的 区 别 与 联系 


ee 
一 种 类 SQL 执行 引擎 ， 最 终 转 换 为 map/reduce: 任务 不 支 桂 SQL | 
和 
SQL 介绍 &Hive 应 用 不 支持 更 新 、 便 除 棵 作 ， 但 可 以 丁 入 支持 增 出 改 查 哥 作 


任务 不 是 实时 执行 任务 实时 执行 忆 
本 身 丰 存 信 娄 握 ， 只 丰 储 元 握 ， 是 一 种 数 扫 仓库。 本身 存储 握 ， 是 一 种 真正 的 数据 库 
适合 表态 大 数据 量 的 查询 、 分 析 、 汇 总 
不 适合 联机 实时 数据 处 理 

操作 以 全 表 数 据 为 基础 ,由 有 分 区 等 概念 哥 作 以 列 | 为 基础 


适合 联机 实时 数据 处 理 


7. 参 考 资 料 


。Lars George 著 ， 代 志 远 / 刘 佳 / 藉 杰 译 ，《 
HBase 权 威 指 南 》， 东 南大 学 出 版 社 ,， 2012 
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Rutherglen 著 ， 曹 坤 译 ，《Hive 编 程 指 
南 》， 人 民 邮 电 出 版 性 ， 2013 
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Apache HBase IM Reference Guide : http:/ 


hbase.apache.org/book.html 


【大 效 据 反 本 与 处 理 】 推 荐 阅 


污 


。 图解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 

Reduce 详 解 

。 图 解 大 数据 | Hadoop 系 统 拱 建 与 环境 配置 @ 实 

操 案 例 

。 图解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 

计 Q@ 实 操 案 例 

。 图解 大 数据 | Hive 拱 建 与 应 用 @ 实 操 案 例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数 据 库 

查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
步 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 

@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 

分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 

@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交易 数据 

@ 综 合 案例 

。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 音乐 专辑 数据 

@ 综 合 案例 


。 图 解 大 数据 | Spark Streaming @ 流 式 数 据 处 


惠 

。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
刘 

。 图解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 厂 技术 实现 : 自然 语言 处 理 行 业 解决 方案 

。 图 解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图 解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 

。 机 器 学 习 实战 : 手把手 教 你 玩 转机 器 学 习 系列 

。 深度 学 习 教 程 : 吴 恩 达 专项 课程 . 全 套 笔 记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 . 课 
程 带 学 与 全 套 笔 记 解 读 


Sh@w Me Al 


图 解 大 数据 | 大 数据 分 析 挖 
掘 -Spark 初 步 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123360494 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/84 
本 文 地 址 : http:/www.showmeai.tech/article- 
detail/173 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.Spark 是 什么 


学 习 或 做 大 数据 开发 的 同学 ， 都 听 说 或 者 使 用 过 
Spark， 从 这 部 分 开始 ，ShowMeAl 带 大 家 一 起 来 学 
习 一 下 Spark 相 关 的 知识 。 


Apache Spark 是 一 种 用 于 大 数据 工作 负载 的 分 布 式 
开源 处 理 系 统 。 它 使 用 内 存 中 缓存 和 优化 的 查询 执 
行 方式 ， 可 针对 任何 规模 的 数据 进行 快速 分 析 查 
询 。Spark 基 于 内 存 计 算 ， 提 高 了 在 大 数据 环境 下 
数据 处 理 的 实时 性 ， 同 时 保证 了 高 容错 性 和 高 可 伸 
缩 性 ， 人 允许 用 户 将 Spark 部 署 在 大 量 的 廉价 硬件 之 
上 ， 形 成 集群 。 


人 @ 
Spark 查 供 使 用 Java、Scala、 


Spark 是 什么 Re Re Python 和 R 语言 的 开发 APl， 3 

傅 redis。 支持 路 多 个 工作 负载 重用 代码 汉 
_ 楷 处 理 、 交互 式 查 询 、 实 时 分 

rdmee-。。 析 .机 器 学习 和 图 形 处 理 等 
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Spark 提 供 使 用 Java、Scala、Python 和 R 语言 的 
开发 API， 支 持 跨 多 个 工作 负载 重用 代码 一 批 处 
理 、 交 互 了 式 查 询 、 买 时 分 析 、 机 器 学 习 和 图 形 处 理 
等 。Apache Spark 已 经 成 为 最 受 欢 迎 的 大 数据 分 布 


陈 处 理 框 以 之 一 。 


。 《更 多 资料 一 数据 科学 工具 速 理 | Spark 使 用 
指南 (RDD 版 )》 


。 《更 多 资料 一 数据 科学 工具 速 理 | Spark 使 用 
指南 (SQL 和 版 ) 》 


2.Spark 的 特点 


Apache Spark 是 个 开源 和 兼容 Hadoop 的 集群 计算 
平台 。 由 加 州 大 学 伯克利 分 校 的 AMPLabs 开 发 ， 作 
为 Berkeley Data Analytics Stack (BDAS ) 的 一 部 
分 ， 当 下 由 大 数据 公司 Databricks 保 加 护航 ， 更 是 
Apache 旗 下 的 顶级 项 目 。 


1) Apache Spark 堆 栈 中 的 不 同 组 件 


is 
Apache spark 扒 烧 中 的 不 同 组 件 国 
坷 

2 ， 


Fast engine for Hive Real time streaming Machine learning phX Processin 季 : 
Interactive Queries data analysis algorithms Algorithms 
Spark 的 特点 问 
和 | 


2 ) Apache Spark 的 优势 


Spark 的 特点 


更 高 的 性 能 多 场景 通用 
120 三 痢 _ Spark GraphX 
要 Streaming {graph 
和 aaaoop 汉 
呈 aaSpark 
和 ao 
生 oo 色 

9 Spark Appsin .NET 呵 


3661 多 平台 支持 


广泛 的 支持 与 易 用 性 EEC 


更 高 的 性 能 : 因为 效 据 被 加 载 到 集群 主机 的 分 
布 式 内 存 中 。 数 据 可 以 被 快速 的 转换 和 迭 代 ， 并 
缓存 用 以 后 续 的 频繁 访问 需求 。 在 数据 全 部 加 
载 到 内 存 的 情况 下 ，Spark 有 时 能 达到 比 
Hadoop 快 100 倍 的 数据 处 理 速 度 ， 即 使 内 存 不 
够 存放 所 有 数据 的 情况 也 能 快 Hadoop 10 倍 。 


广泛 的 支持 与 易 用 性 : 通过 建立 在 Java、 
Scala、Python、SQL (应 对 交互 式 查询 ) 的 
标准 API 以 方便 各 行 各 业 使 用 ， 同 时 还 含有 大 
量 开 箱 即 用 的 机 器 学 习 库 。 


多 场景 通用 性 : Spark 集 成 了 一 系列 的 库 ， 包 
括 SQL 和 DataFrame 帮 助 你 快速 完成 数据 处 
理 ; Mllib 帮 助 你 完成 机 器 学 习 任务 ; Spark 
streaming 做 流 式 计算 。 


。 多 平台 支持 : Spark 可 以 跑 在 Hadoop、 
Apache Mesos、Kubernetes 等 之 上 ， 可 以 从 
HDFS、Alluxio、Apache Cassandra、 
Apache Hive 以 及 其 他 的 上 百 个 数据 源 获 取 数 
据 。 


Spark 的 特点 


JE 


入 训 1 届 全"Showwe 是 研究 中 心 | 


3.Spark 作 业 与 调度 


Spark 的 核心 是 作业 和 任务 调度 系统 ， 它 可 以 保障 


各 种 任务 高 效 完整 地 运行 。 


1) Spark 作 业 和 任务 调度 系统 


Spark 通 过 作业 和 任务 调度 系统 ， 能 够 有 效 地 进行 

调度 完成 各 种 任务 ， 底 层 的 巧妙 设计 是 对 任务 划分 
DAG 和 容错 ， 使 得 它 对 低层 到 顶层 的 各 个 模块 之 间 
的 调用 和 处 理 显得 游 妨 有 余 。 


Spark Application 和 Hadoop MapReduce 中 的 类 似 忆 
1 用 户 编写 的 Spark 应 用 程序 ,包含 了 一 个 Driver 功 能 的 work 六 
Spark 作 业 与 调度 人 EE 
CE 器 ECG “ 
委 索 时时 网 SAT 研究 中 心 | 
- 企 山 入 
心 ” JI 册 
要 念 解释 
作业 (Job ) RDD 中 由 行动 操作 所 生成 
的 一 个 或 多 个 调度 阶段 。 
调度 阶段 (Stage ) 每 个 Job 作 业 会 因为 RDD 


之 间 的 依赖 关系 拆 分 成 多 
组 任务 集合 ， 称 为 调度 阶 
段 ， 简 称 阶 段 ， 也 叫做 任 
务 集 (TaskSet ) 。 调 度 
阶段 的 划分 是 由 
DAGScheduler (DAG 调 
度 器 ) 来 划分 的 。 调度 阶 
段 有 Shuffle Map Stage 和 
Result Stage 两 种 。 

任务 (Task ) 分 发 到 Executor 上 的 工作 
任务 ， 是 Spark 实 际 执行 
应 用 的 最 小 里 元 。Task 会 


DAGScheduler (DAG 调 


度 器 ) 


TaskScheduler (任务 调 


度 器 ) 


对 RDD 的 partition 数 据 执 
行 指定 的 算 子 操作 ， 比 如 
flatMap、map、reduce 等 
算 子 操作 ， 形 成 新 RDD 的 
partition。 
DAGScheduler 是 面向 
Stage (阶段 ) 的 任务 调 
度 器 ， 负 责 接收 Spark 应 
用 提交 的 作业 ， 根 据 RDD 
的 依赖 天 系 划 分 调度 阶 
段 ， 并 提交 Stage ( 阶 

段 ) 给 TaskScheduler。 
TaskScheduler 是 面向 任 
务 的 调度 器 ， 它 接收 
DAGScheduler 提 交 过 来 
的 Stage(〈 阶段) ， 然 后 
把 任务 分 发 到 Worker 节 点 
运行 ， 由 Worker 节 点 的 
Executor 来 运行 该 任务 。 


3 ) Spark 作 业 和 调度 流程 


Spark 的 作业 调度 主要 是 


目 基于 RDD 的 一 系列 操作 


构成 一 个 作业 ， 然 后 在 Executor 中 执行 。 这 些 操作 


算 子 主要 分 为 转换 操作 和 行动 操作 ， 对 于 转换 操作 
的 计算 是 lazy 级 别 的 ， 也 就 是 延迟 执行 ， 只 有 出 现 
了 行动 操作 才 触 发 作业 的 提交 


在 Spark 调 度 中 最 重要 的 是 DAGScheduler 和 
TaskScheduler 两 个 调度 器 : 其 中 DAGScheduler 负 
责任 务 的 逻辑 调度 ， 将 Job 作 业 拆 分 成 不 同 阶段 的 
具有 依赖 关系 的 任务 集 ， 而 TaskScheduler 则 负责 

具体 任务 的 调度 执行 。 


Spark 的 作业 和 任务 调 RDDobjects DAGScheduler Taskscheduler 


度 系统 ， 总 体 上 可 分 为 : 机 
Spark 作 业 与 调度 -。 棍 交 作业 “ 交 ”k 鸭 辐 国人。 
。 划分 调度 阶段 (stage) 。 媳 “ 一 

-， 提交 调度 阶段 (Stage) “ao task 则 
- 提交 任务 
-。 执行 任务 


这 Perat 
获取 执行 结果 [和 索 | 沪 舍 ShowMeAl 研究 中 心 


4.RDD / DataFrame 与 
Dataset 


1) Spark API 的 历史 


Apache Spark 中 有 RDD，DataFrame 和 Dataset 三 
种 不 同 数据 API， 发展 如 下 : 


RDD 


RDD, DataFrame Distribute collection ofJYM ”Distribute collection ofRow Intemally rows, externally 猴 
沁 下 
objects objects JVM objects SS 
与 Dataset 包 
Functional Operators Expression-based operations 。 Almost the “Best of both 员 
(map,filter'etc.) and UFDs worlds”: type safe+fast 志 
Logical plans and optimizer But slower than DF 
Fastefficient internal Not as good for interactive 
representations analysis, especially Python 


了 查 索 | 徽 信 ShowMeA1 研 究 中 心 


中 httpwww.showmeaitechy 


RDD : 
。RDD 是 Spark 最 早 提供 的 面 器用 户 的 主要 API。 


。 从 根本 上 来 说 ， 一 个 RDD 就 是 数据 的 一 个 不 可 
变 的 分 布 式 元 素 集合 ， 在 集群 中 跨 节 点 分 布 ， 
可 以 通过 若干 提供 了 转换 和 处 理 的 底层 API 进 
行 并 行 处 理 。 


DataFrame : 


。 与 RDD 相 似 ，DataFrame 也 是 数据 的 一 个 不 可 


变 分 布 式 集合 。 


但 与 RDD 不 同 的 是 ， 数 据 都 被 组 织 到 有 名 字 的 
列 中 ， 就 像 天 系 型 数据 库 中 的 表 一 样 。 


。 设计 DataFrame 的 目的 就 是 要 让 对 大 型 数据 集 
的 处 理 变 得 更 简单 ， 它 让 开发 者 可 以 为 分 布 式 
的 数据 集 指定 一 个 模式 ， 进 行 更 高 层次 的 抽 


象 。 它 提供 了 特定 领域 内 专用 的 API 来 处 理 你 
的 分 布 式 数 据 ， 并 让 更 多 的 人 可 以 更 方便 地 使 
用 Spark， 而 不 仅 限 于 专业 的 数据 工程 师 。 


Dataset : 


。 从 Spark 2.0 开 始 ，Dataset 开 始 具 有 两 种 不 同 
类 型 的 API 特 征 : 有 明确 类 型 的 API 和 无 类 型 的 
API|。 


。 从 概念 上 来 说 ， 可 以 把 DataFrame 当 作 一 些 通 
用 对 象 Dataset[Row] 的 集合 的 一 个 别名 ， 而 一 
行 就 是 一 个 通用 的 无 类 型 的 JVM 对 象 。 


。 与 之 形成 对 比 ，Dataset 就 是 一 些 有 明确 类 型 
定义 的 JVM 对 象 的 集合 ， 通 过 你 在 Scala 中 定 
义 的 Case Class 或 者 Java 中 的 Class 来 指定 。 


2 ) Spark API 简 介 


在 Spark 2.0 中 对 Dataframe 和 Dataset 进 行 了 统一 ， 
如 下 图 所 示 : 


| 

CD 在 spark2.0 中 对 DataFrame 和 Dataset 进 行 了 统一 吓 
名 
亲 


Uniffied Apache Spark 2.0 API 


RDD /DataFrame 
与 Dataset 


httpywwwshowmeaitechy 


3 ) Spark 的 逻辑 结构 


Spark 的 整体 逻辑 结构 如 下 图 所 示 ， 包 含 不 同 的 请 
级 及 组 成 部 分 : 


RDD, DataFrame 
与 Dataset 


整个 Spark 的 逻辑 结构 可 以 组 织 成 如 下 形态 : 局 
3 


Data Sources (Hadoop，JSON, MySQL，Cas 


中 httpWwww.showmeaitechy 


5.Spark2.0 与 SparkSession 


1) SparkSession 的 引入 


Spark2.0 中 引入 了 SparkSession 的 概念 ， 它 为 用 户 
提供 了 一 个 统一 的 切入 点 来 使 用 Spark 的 各 项 功 
能 ， 借 助 SparkSession， 我 们 可 以 使 用 DataFrame 


和 Dataset 的 各 种 API， 应 用 Spark 的 难度 也 大 大 下 


降 。 


在 Spark 的 早期 版 本 ，SparkContext 是 进入 Spark 的 
切入 点 ，RDD 数 据 基 于 其 创建 。 但 在 流 处 理 、SQL 
等 场景 下 有 其 他 的 切入 点 7 汇总 如 下 : 本 


。RDD， 创建 和 操作 使 用 SparkContext 提 供 的 
API|。 

。 流 处 理 ， 使 用 StreamingContext。 

。 SQL， 使 用 sqlIContext。 

。 Hive， 使 用 HiveContext。 


在 spark 的 早期 版 本 Worker Node 
SparkContext 是 进入 Spark 的 切入 点 8C 


Spark2.0 与 


SparkSsession 


在 Spark 高 版 本 中 ，DataSet 和 DataFrame 提 供 的 
API 逐 渐 成 为 新 的 标准 API， 需 要 一 个 切入 点 来 构建 
它们 。 所 以 ，Spark 2.0 引 [入 了 一 个 新 的 切入 点 
(entry point) : SparkSession。 


。 SparkSession 实 质 上 是 SQLContext 和 


HiveContext 的 组 合 〈《 未 来 可 能 还 会 加 上 
StreamingContext ) 。 


。 在 SQLContext 和 HiveContext 上 可 用 的 API ， 
在 SparkSession 上 同样 可 以 使 用 。 


。 SparkSession 内 部 封装 了 SparkContext， 计 算 
实际 上 由 SparkContext 完 成 。 


2 ) 创建 SparkSession 


Spark Session 


Spark2.0 与 Spark 1.6 => SparkContext, SQLContext, HiveContext 


【1 


SparkSsession 


多 得 as 


Spark 2.0 => SparkSession 
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6. 结 构 化 帝 与 连续 性 应 用 


1) Continuous Applications 


Spark2.0 中 提出 一 个 概念 ，Continuous 
Applications( 连 续 应 用 程序 )。 


Spark Streaming 等 流 式 处 理 引 擎 ， 致 力 于 流 式 数据 


的 运算 : 比如 通过 map 运 行 一 个 方法 来 改变 流 中 的 
每 一 条 记录 ， 通 过 reduce 可 以 基于 时 间 做 数据 聚 
合 。 但 是 很 少 有 只 在 流 式 数据 上 做 运算 的 需求 ， 流 
陈 处 理 往往 是 一 个 大 型 应 用 的 一 部 分 。 


Pure Streaming System 
结 检 化 流 与 连续 性 占有 国人 
砚 
(interactions with othersystems 图 移 面 
leftto th 站 


eftto the usel 
Static Data 

Spark Streaming 类 的 流 式 引 警 Strctured Streaming 类 的 连续 应 用 

交互 是 由 使 用 者 来 处 理 交互 号 由 计 来 外 再: ShowMeAl 研 究 中 心 | 


Continuous Applications 提 出 后 ， 实 时 运算 作为 一 
部 分 ， 不 同系 统 间 的 交互 等 也 可 以 由 Structured 
Streaming 来 处 理 。 


2 ) Structured Streaming 


Structured Streaming 是 一 个 建立 在 Spark Sql 引擎 
上 的 可 扩展 、 高 容错 的 流 式 处 理 引 擎 。 它 使 得 可 以 
像 对 静态 数据 进行 批量 处 理 一 样 来 处 理 流 式 数 据 。 


结构 化 流 与 连续 性 应 用 Hi 


Structured Streamin Ce 


strue mg 将 流 数据 看 作 

是 一 张 ; 0 流 数 据 不 断 的 
Data stream afg9RUnDgundged TSDIE 

向 表 尾 增加 数据 。 | 过 | 宫 舍 ShowMeAl 研 究 中 心 | 


7. 参 考 资料 


数据 科学 工具 速 查 | Spark 使 用 指南 (RDD 版 ) 
http:/www.showmeai.tech/article-detail/106 
数据 科学 工具 速 查 | Spark 使 用 指南 (SQL 版 ) 
http:/www.showmeai.tech/article-detail/107 
张 安 站 着 ，《Spark 技 术 内 幕 》,， 人 民 邮 电机 
械 工 业 出 版 社 ，2015 

Tomasz Drabas / Denny Lee 闭 ，《Learning 
PySpark》，2017 

Spark 基 本 概念 快速 入 门 ，https:/ 
www.jianshu.coryVp/e41b18a7e202 

Spark 编程 指南 ，http:/spark.apachecn.orgy/ 
docs/cn/2-2 ) .0rdd-programming-guide.html 


【大 效 据 反 术 与 处 理 】 推 荐 阅 


所 一 | 
六 上 


。 图解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
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@ 综 合 案例 

。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交易 数据 
@ 综 合 案例 
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收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.RDD 介 绍 


要 萤 握 基于 Spark 的 大 数据 处 理 操 作 ， 大 家 首先 要 
了 解 Spark 中 的 一 个 核心 数据 概念 : RDD。 


。 《更 多 资料 一 数据 科学 工具 速 理 | Spark 使 用 
指南 (RDD 版 )》 


1) RDD 介 绍 


RDD， 全 称 为 Resilient Distributed Datasets( 弹 性 
分 布 式 数 据 集 合 )， 是 一 个 容错 的 、 并 行 的 数据 结 
构 ， 可 以 让 用 户 显 式 地 将 数据 存储 到 磁盘 和 内 存 
中 ， 并 能 控制 数据 的 分 区 。 同 时 ，RDD 还 提供 了 一 
组 丰富 的 操作 来 操作 这 些 数 据 。 


RDD 介 绍 


及 和 e 人 


乌有 提 oOww 


RDD( 弹 性 分 布 式 数据 集合 ) 是 Spark 的 基本 数据 结 
构 ， Spark 中 的 所 有 数据 都 是 通过 RDD 的 形式 进行 
组 织 


-A\o 


。 RDD 是 不 可 变 的 数据 集合 ， 每 个 分 区 数据 是 只 
读 的 。 

。RDD 数 据 集 要 做 逻辑 分 区 (类 似 hadoop 中 的 远 
辑 切 片 splib， 每 个 分 区 可 以 单独 在 集群 节点 进 
行 计算 。 

。RDD 数 据 集中 的 数据 类 型 可 以 包含 任何 java 类 
型 、scala 类 型 、python 类 型 或 者 自 定 义 的 类 
型。 


。RDD 擅 长 的 领域 : 友 代 式 的 数据 处 理 ， 比 如 机 


器 学 习 。 


2) RDD 的 5 个 属性 
每 个 RDD 有 5 个 主要 的 属性 : 


。 一 组 分 片 (partition)， 数 据 集 的 基本 组 成 单位 。 

。 一 个 函数 ， 计 算 每 个 分 片 。 

。 对 parent RDD 的 依赖 ， 描 述 RDD 之 间 的 
lineage。 

。 一 个 Partitioner， 对 于 key-value 的 RDD。 

。 一 个 列表 ， 存 储存 取 每 个 partition 的 preferred 
位 置 。 例 如 对 于 一 个 HDFS 文 件 来 说 ， 存 储 每 
个 partition 所 在 的 块 的 位 置 。 


partitions 


返回 分 片 对 象 列表 可 
referredlocations(p) 根据 数据 的 本 地 特性 , 列 出 分 片 p 能 够 快速 访问 的 节点 


ET 


endenciesO 返回 依赖 列表 
iterator (p, parentlters) ”给 定 p 的 父 分 片 的 迁 代 器 ,计算 分 片 p 的 元 素 
partitionerO 返回 说 明 RDD 是 否 是 hash 或 者 range 分 片 的 元 数据 
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3 ) RDD 与 Spark 任 务 


在 Spark 分 布 式 数 据 处 理 任务 中 ，RDD 提 供 数据 ， 
供 任 务 处 理 。 很 多 时 候 hadoop 和 Spark 结 合 使 用 : 
hadoop 提 供 hdfs 的 分 布 式 存储 ，Spark 处 理 hdfs 中 
的 数据 。 


我 们 以 sc.textFile(rhdqfs://path/to/file") 形 
式 生 成 RDD 时 ，Spark 就 已 经 算 好 了 数据 的 各 个 切 
片 (也 叫 分 区 )， 并 把 分 区 信息 放 在 了 一 个 列表 (名 单 ) 
里 ， 这 个 名 单 就 属于 RDD 自 带 的 其 中 一 个 属性 。 


。RDD 不 包含 实际 要 处 理 的 数据 ， 而 是 在 RDD 中 
的 分 区 名 单 中 载 明 切片 的 信息 。 


。 数据 已 经 在 Hadoop 的 数据 节点 上 了 ， 只 要 在 
RDD 中 标明 分 区 对 应 的 数据 所 在 位 置 、 偏 移 
量 、 数 据 长 度 即 可 ， 就 类 似 元 数据 。 


RDD 在 被 分 发 到 每 个 执行 计算 的 任务 节点 后 ， 每 个 
任务 节点 会 根据 元 数据 信息 获取 自身 节点 负责 计算 
的 分 区 数据 ， 并 把 数据 放 到 本 万 点 的 内 存 当 中 ， 然 
后 对 数据 进行 计算 。 


。 每 个 分 区 由 一 个 闻 点 来 计算 ， 换 句 话说 就 是 每 
个 任务 只 计算 RDD 的 其 中 一 个 分 区 。 


一 般 我 们 会 把 数据 所 在 的 节点 和 Spark 的 计算 节点 
配 成 同一 个 主机 ， 这 样 就 实现 了 数据 本 地 化 。 


。 在 worker 节 点 将 要 运行 Spark 的 计算 任务 时 ， 
只 需要 从 本 地 加 载 数据 ， 再 对 效 据 运用 Spark 
的 计算 函 效 ， 就 不 需要 从 别处 (例如 远程 主机 ) 
通过 网 络 传输 把 需要 计算 的 数据 拿 过 来 ， 从 而 
避免 了 昂贵 的 网 络 传输 成 本 。 “宁可 移动 冰 数 ， 
也 不 要 移动 数据 ”。 


2.RDD 创 建 方式 


1 ) 创建 RDD 的 3 种 方式 


RDD 的 3 种 创建 方式 如 下 图 所 示 (以 pyspark 代 码 为 
例 ) : 


| 

Parallelized Collections ”并行 化 一 个 现 有 集合 电 
rdd1 = sc. .parallelize([12,3,4,5,6,7,8]) 喀 

RDD 创 建 方式 有 
Spark 中 创建 From RDDs 从 RDD 变 换 而 来 虽 

RDD 的 方式 也 


rdd2 = rdd2.map(lambda x:func(x)) 


External Data 加 载 外 部 存储 文件 


rdd3 = sctextFile(%home/examples/files/abc.txt”) 


中 http:Wwww.showmeaitechy 


2 ) 从 外 部 数据 创建 RDD 


spark 也 支持 从 多 种 外 部 数据 源 读 取 数据 ， 包 括 
HDFS、S3、Hbase、MongoDB 等 ， 如 下 图 所 示 : 


Create RDD from External Data 可 以 从 多 种 外 部 数据 创建 Rb 
na5e 包 


| 
he Spar ， sctextFile 默 认 从 HDFS 读 取 本 
RDD 创 建 方式 站 。 可 以 通过 filey/ 前 绿 指 定 从 本 地 读 取 所 


到 
二 
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在 Spark 程 序 中 ， 当 一 个 传递 给 Spark 操 作 ( 例 如 map 
和 reduce) 的 函数 在 远 点 上 面 运行 时 ，Spark 操 
作 实 际 上 操作 的 是 这 个 函数 所 用 变量 的 一 个 独立 副 


这 些 变 量 会 被 复制 到 每 台 机 器 上 ， 并 且 这 些 变量 在 
远程 机 器 上 的 所 有 更 新 都 不 会 传递 回 驱 动 程序 。 


通常 跨 任务 的 读 写 变量 是 低 效 的 ， 但 是 ，Spark 还 
是 为 两 种 常见 的 使 用 模式 提供 了 两 种 有 限 的 共享 变 
量 : 


。 广播 变量 (broadcast variable) 


。 累加 器 (accumulator ) 


在 分 布 式 计算 中 ， 由 Driver 端 分 发 大 对 象 (如 字典 、 

集合 、 黑白 名 单 等 )， 一 般 ， 如 果 这 个 变量 不 是 广播 
,那么 每 个 task 就 会 分 发 一 份 。 在 task 数 目 十 

全 到 况 下 ，Driver 的 带宽 会 成 为 系统 的 瓶颈 ， 


而 且 会 大 量 消耗 task 服 务 器 上 的 资源 。 


如 果 将 这 个 变量 声明 为 广播 变量 ， 那 么 知识 每 个 
executor 拥 有 一 份 ， 这 个 executor 启 动 的 task 会 共享 
这 个 变量 ， 节 省 了 通信 的 成 本 和 服务 器 的 资源 

3 ) 标 加 器 


为 什么 要 将 变量 定义 为 紧 加 器 ? 


RDD 广 播 与 累加 器 
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在 Spark 应 用 程序 中 ， 异 常 监控 、 调 试 、 记 录 符 合 
某 特 性 的 数据 数目 ， 这 些 需 求 都 需要 用 到 计数 器 。 


如 果 变 人 ,那么 被 改变 时 不 在 

Driver 端 进行 全 局 汇总 。 即 在 分 布 式 运 行 时 每 个 task 

运行 的 只 是 原始 变量 的 一 个 副本 ， 并 不 能 改变 原始 
变量 的 值 。 


但 是 ， 当 这 个 变量 被 声明 为 楷 加 器 后 ， 该 变量 就 会 
有 分 布 式 计数 的 功能 。 


小 


4.RDD transformation 与 
action 
要 对 大 数据 进行 处 理 ， 我 们 需要 使 用 到 一 系列 


Spark RDD 上 可 以 变换 与 操作 的 算 子 ， 我 们 来 重点 
理解 一 下 spark 的 RDD transformation 和 action。 


1 ) transformation 与 action 


台 
Spark 支持 两 种 RDD 操 作 也 
， transformation 


， action 
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transformation 操 作 针 对 已 有 的 RDD 创 建 一 个 新 的 
RDD。 


。 例如 ，map 就 是 一 种 transformation 操 作 。 它 用 
于 将 已 有 RDD 的 每 个 元 素 传 入 一 个 自 定 义 的 函 
数 ， 并 获取 一 个 新 的 元 素 ， 然 后 将 所 有 新 元 素 
组 成 一 个 新 的 RDD。 


action 主 要 是 对 RDD 进 行 最 后 的 操作 (如 遍 历 、 


reduce、 保 存 到 文件 等 ), 并 可 以 返回 结果 给 Driver 
程序 。 


。 例如，reduce 就 是 一 种 action 操 作 。 它 用 于 对 
RDD 中 的 所 有 元 素 进 行 聚合 操作 ， 并 获取 一 个 
最 终 的 结果 ， 然 后 返回 给 Driver 程 序 。 


Transformations Actions 
Ehowme 
map(func) reduce[func 


flatMap(func) cotlect 正 是 因为 Spark 的 
fitter(func) 


groupByKey() 
red 


7 王 攻 ee 全 下 


RDD transformation 
与 action transformation 和 action 与 
一 系列 APl， 使 得 相对 干吗 
Hadoop 的 Map-Reduce， 


开发 的 代码 量 成 倍 地 减少 


筷 
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2 ) 局 频 RDD 算 子 图 解 
map 与 flatMap 


flafMap 


RDD transformation 
与 action 
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filter 与 distinct 


filter distincf 
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union 与 intersection 


RDD transformation 
与 action 


RDD transformation 
与 action 
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徽 信 -ShowMeMAj 研究 中 心 | 


paralleliae([('c 7 317 人 av 31) 
CDaralleltzeE( 六 avf :3 7)5( 647 5) 
tnty) 

einb (xseollect1 |) 

ciat (ycollect1 1 ) 

Petntt3-collect1) 


(3 


《9 ( 和 
人 5 


2 607 07 Gy 全 y 0y 6 (3 ( 弘 六 小 


| | 
son < 
副 
| 
本 
六 局 
自 
和 
N\ 一 | 
国 
parelleliaetl'e aa 区 
0 
人 an 
dat 
Te 1 
| ShowMeAI 研究 中 心 | 


collect 与 reduce 


RDD transformation 


中 http/www.showmeaitechy 


top 与 count 


RDD transformation 
与 action 


中 http:Wwww.showmeaitechy 


collec+ 


了 aiac 
= ace-parallolisel[1y2/3]) 
~ xcollece0 

prtasta) 

raasfy) 


arallelcelleeticnRpp[ 72] at parallelize at 3ythenRDD_aecalas42 了 
本 机 汐 


reduce 


闻 reduae 
parallelizel1iy2v3]) 

reduce1laaibda objy accumalatedy ob 

pinttx-collece() 

sntty 


3， 让 
攻 


-accumulatea) 


微 信 ShowMeAI 研 究 中 心 


fop 


top 
工 = scvparallelizet11v3,1V2031) 
了 = x,toptnum = 3) 
print [xcollect(D 


countf 


加 
吧 
名 


arallelize(1173721) 
t0 
print zscoliect1) 


takeOrdered 与 take 


RDD transformation 
与 action 


中 http:Wwww.showmeaitechy 


人 全 
(lb 3，1，2，3] 1 有 庆 本 由 
13，3，2 3 2 寺 ShowMeA1 研究 中 心 
加 
takeOrdered take 果 
名 
二 el 
到 
多 
S 
品 
四 
要 本 汪 天 
1) ee 
村 | 
| ee 
演 洛 有 全 
3 上 
本 让 洁 ShowMeAl 研 究 中心 | 


reduceByKey 与 collectAsMap 


RDD transformation 
与 action 


固 
reduceByKey collectfAsMap 盯 
和 
有 


5. 参 考 资 料 


数据 科学 工具 速 查 | Spark 使 用 指南 (RDD 版 ) 
http:/www.showmeai.tech/article-detaily/106 
数据 科学 工具 速 查 | Spark 使 用 指南 (SQL 版) 
http:/www.showmeai.techyarticle-detail/107 
耿 嘉 实 ，Spark 内 核 设 计 的 艺术 : 架构 设计 与 
实现 ， 机 械 工业 出 版 社 , 2018 

郭 景 瞻 ， 图 解 Spark : 核心 技术 与 案例 实战 ， 
电子 工业 出 版 社 

Spark 的 基本 数据 结构 RDD 介 绍 : https:/ 
blog.csdn.net/qq_31598113/article/ 
details/70832701 

Spark RDD (Resilient Distributed Datasets ) 
论文 : http:/spark.apachecn.org/paperzhy/ 
spark-rdd.html 


【大 数据 技术 与 处 理 】 推 荐 阅 
读 


。 图解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图 解 大 数据 | Hadoop 系 统 搭建 与 环境 配置 @ 实 
操 案 例 

。 图解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 买 操 案 例 

。 图 解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数 据 库 


查询 

。 图 解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
多 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 


。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交易 数据 


图解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

图解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

. 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 控 气 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 三 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 
。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 


。 识 度 学 习 教 程 : 吴 恩 达 专 项 课程 全 套 笔 记 解 


读 


。 自然 语言 处 理 教程 : 斯 坦 蛋 CS224ni 识 程 . 课 
呈 带 学 与 全 套 笔 记 解读 


She@w MeAl 


图 解 大 数据 | 综合 案例 -使 用 
Spark 分 析 挖 掘 零售 交易 效 据 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123364802 
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收藏 ShowMeAl 查 看 更 多 精彩 内 容 


5 上 言 


电 商 与 新 零售 是 目前 大 数据 与 Al 应 用 最 广 泥 的 场景 
之 一 ， 本 案例 以 跨国 在 线 零售 业务 为 背景 ， 讲 解 使 
用 pyspark 对 HDFS 人 存储 的 数据 进行 交易 数据 分 析 的 
过 程 ， 并 且 对 分 析 结 果 使 用 echarts 做 了 可 视 化 呈 
现 。 


1. 环 境 搭建 
本 次 作业 使 用 的 环境 和 软件 如 下 : 


。 (1 ) Linux 操 作 系统 : Ubuntu 16.04 
。 (2 ) Python : 3.8 

。 (3) Hadoop : 3.1.3 

。 (4) Spark : 2.4.0 

。 (5)Bottle :Vv0.13 


Bottle 是 一 个 快速 、 简 洁 、 轻 量 级 的 基于 WSIG 的 微 
型 Web 框 架 ， 此 框架 除了 Python 的 标准 库 外 ， 不 依 
赖 任何 其 他 模块 。 安 装 方 法 是 ， 打 开 Linux 终 端 ， 执 
行 如 下 命令 : 


SUGo 量 atesgeieEamst aa 训 且 加 攻 人 用 阁 王 思 于 加 


neseEnnseamocoeelie 


2. 效 据 预 处 理 


本 案例 的 数据 集 来 自 Kaggle 平 台 ， 是 跨国 在 线 零售 
业务 交易 数据 ， 大 家 可 以 通过 如 下 的 百度 网 盘 地 址 
下 载 。 


数据 集 和 源 代 码 下 载 (百度 网 盘 ) 
链接 : https:Wpan.baidu.comny/ 
s/1zg2MoNNZnGTQC5ohwQKkJA 
提取 码 : show 


这 是 一 家 在 英国 注册 的 公司 ， 主 要 销售 礼品 。 数 据 
集 E_commerce_Data.csv 包含 541909 条 记录 ， 时 
间 跨 度 为 2010-12-01 到 2011-12-09， 每 个 记录 由 8 
个 属性 组 成 ， 有 具体 的 含义 如 下 表 所 示 : 


字段 名 称 类 型 滞 尺 举例 

InvoiceNo string 订单 编号 。 536365 
(退货 订单 
以 C 开 头 ) 

StockCode，string 产品 代码 85123A 


Description string 产品 描述 ”WHITE 


Quantity ， integer 


InvoiceDate String 


UnitPrice ， double 


CustomerID integer 
Country String 


购买 数量 
(负数 表示 
退货 ) 

订单 日 期 和 
时 间 ] 

单价 〈 喘 
镑 ) 

客户 编号 
国家 名 称 


METAL 
LANTERN 
6 


12/1/2010 
8:26 
3.39 


17850 
United 
Kingdom 


ee 数据 集 E_commerce_Data.csv 上 传 至 hdfs 


7 命令 如 下 : 


QTSQfS 一 RUEREConmnnercesaspaa es 


大 家 可 以 通过 如 下 命令 进入 pyspark 的 交互 式 编 程 环 
境 ， 或 者 在 配置 好 pyspark 的 jupyter Notepook 中 ， 
对 数据 进行 初步 探索 和 清洗 : 


cq /usr/Llocal/spark # 进 入 Spark 安 装 目录 


./Dbin/PpysPark 


(1 ) 读 取 在 HDFS 上 的 文件 ， 以 csv 的 格式 读 取 ， 
得 到 DataFrame 对 象 


加 下 三 SeaQESEOrcmaeecomaaieabneks Saicsv" ) 


(2 ) 但 看 数据 集 的 大 小 ， 输 出 541909， 不 包含 标 


题 行 
Geounts 人) 


(3 ) 打印 数据 集 的 schema， 查 看 字段 及 其 类 型 信 
息 。 输 出 内 容 就 是 上 文中 的 属性 表 


间 开 Schemaito) 


(4) 创建 临时 视图 data 


Qqf .createOrReplLlaceTempView("daata") 


(5 ) 由 于 顾客 编号 customziD 和 商品 描 

述 Description 均 存 在 部 分 缺失 ， 所 以 进行 数据 清 
洗 ， 过 滤 掉 有 缺失 值 的 记录 。 特 别 地 ， 由 

于 customID 为 integez 类 型 ， 所 以 该 字段 若 为 空 ， 
则 在 读 取 时 被 解析 为 0， 故 


用 Qf [CustomerID7] !=0 条 件 过 滤 。 
Clean=dqf .filtexc(Qaf["CcustomezrID"]!=0) .filter(Qaf[ 7 
(6 ) 但 看 清洗 后 的 数据 集 的 大 小 ， 输 出 406829。 
Gileangceunmca (全 


(7 ) 将 清洗 后 的 文件 以 csv 的 格式 ， 与 

入 己 Commerce_Data_clean.csv 中 (实际 上 这 是 
目录 名 ， 真 正 的 文件 在 该 目录 下 ， 文 件 名 类 似 

于 part-00000， 需 要 确保 HDFS 中 不 存在 这 个 目 
录 ， 否 则 写 入 时 会 报 “already exists” 错 误 ) 


Ceanewrmeestomnau comaaagrnekRsesPaeR ee$v") .oOi 


3. 效 据 分 析 


数据 集 和 源 代 码 下 载 (百度 网 盘 ) 
链接 : https:Wpan.baidu.comny/ 
s/1zg2MoNNZnGTQC5ohwQKkJA 
提取 码 : show 


我 们 构建 一 个 总 体 的 分 析 脚 


本 Sales_dqata_analysis.pPy ， 先导 入 需要 到 的 
python 模 块 。 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


井 =*= CoaQing: tf 一 8 一 一 

fxrom PYySsPark import SParkContext 

所 疝 是 昌 XSDaKsscmioeoncESDaeKSeSsSoi 

from PysPark.sdl.types import StzingITyPpe， Double 
mom 世 aiSOi 


aocnae CS 
接着 初始 化 SparkSession 对 象 。 


SG SPEacekContext( Local SECEarckepzoJect 1 
SC.SetLogLevel (WARN ' ) 


SPark = SparkSession.builder.getOrCreate () 


之 后 从 HDFS 中 以 csv 的 格式 读 取 清 洗 后 的 数据 目 
录 已 Commerce_Data Clean.csv ， spark 得 到 


DataFrame 对 象 ， 并 创建 临时 视图 qata 用 于 后 续 分 


析 。 


四 攻 三 本 SS 区 站 基本 于 全 本 Q 遇 omaiaeemsadatabreksspark.csv 


Qf .createOrReplLlaceTempView("data") 


为 方便 统计 结果 的 可 视 化 ， 将 结果 导出 为 json 文 件 
供 web 页 面 泻 染 。 使 用 save 方 法 导出 数据 : 


aqef Save (Path，，dqata) : 
而 于 二 抽 二 世相 攻击 全 有 攻 用 下 王 全 车 二 > 
fE.wWECILte (Qata) 


1 ) 效 据 概览 


(1) 客户 数 最 多 的 10 个 国家 


每 个 客户 由 编号 customerID 唯一 标识 ， 所 以 客户 
的 数量 为 couNT (DISTINCT_ customerID) ， 有 再 按照 
国家 Country 分 组 统计 ， 根 据 客户 数 降序 排序 ， 和 外 
选 出 10 个 客户 数 最 多 的 国家 。 得 到 

的 countrycustomerDE 为 DataFrame 类 型 ， 执 


行 collect () 方法 即 可 将 结果 以 数组 的 格式 返回 。 


aqef countzyCustomer () : 


CGOountTryYCUstomerDPE = SparKkK-sdl (SRLECT 


CountL: 


zeturn CountLzyCustomerDE .colLllect () 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[国家 名 称 , 客户 数 ] 


(2 ) 销量 最 高 的 10 个 国家 


ouantity 字 段 表 示 销 量 ， 因 为 退货 的 记录 中 此 字段 
为 负数 ， 所 以 使 用 suM(ouantity) 即 可 统计 出 总 销 
量 ， 即 使 有 退货 的 情况 。 再 按照 国家 Country 分 组 
统计 ， 根 据 销量 降序 排序 ， 筛 选 出 10 个 销量 最 高 的 
国家 。 得 到 的 -ountryouantitypE 为 DataFrame 类 
型 ， 执 行 collect () 方法 即 可 将 结果 以 数组 的 格式 
返回 。 


GesEeeunmeryeoanERey 全 
和 ountT 


站 人 本 二 ERAeOLEECEO 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


(3 ) 各 个 国家 的 总 销售 额 分 布 情 , 


UnitpPrice 字段 表示 单价 ，ouantity 字段 表示 销 
量 ， 退货 的 记录 中 ouantity 字段 为 负数 ,所 以 使 
用 suM(UnitPricexouantity) 即 可 统计 出 总 销售 
额 ， 即 使 有 退货 的 情况 。 再 按照 国家 countzry 分 组 
统计 ， 计 算出 各 个 国家 的 总 销售 额 。 得 到 

的 countrySumOofPriceDF 为 DataFrame 类 型 ,， 执 


行 collect () 方法 即 可 将 结果 以 数组 的 格式 返回 。 


人 ECOERTOCe 
onEerSUm@TReCERREE 三 量 S 间 间作 人 SECT Coun 


人 lw 本 CenteryXSumgO 上 ReeDREeclaeeE 介 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[国家 名 称 , 总 销售 额 ] 


(4 ) 销量 最 高 的 10 个 商品 


ouantity 字段 表示 销量 ， 退 货 的 记录 中 ouantity 
字段 为 负数 ， 所 以 使 用 suM(ouantity) 即 可 统计 出 
总 销量 ， 即 使 有 退货 的 情况 。 再 按照 商品 编 

码 stockcoade 分 组 统计 ， 计 算出 各 个 商品 的 销量 。 


得 到 的 stockouantityDF 为 DataFrame 类 型 ， 执 


行 collect () 方法 即 可 将 结果 以 数组 的 格式 返回 


SEESEeGldOPEUEIENRA 
StOCKQUantitLtYDE = SPark.SG91L("SELECTIT StpckCod 
enaSsccKoanETEYDR eolec 呈 由 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


(5) 商品 描述 的 热门 关键 词 Top300 


Description 字 段 表示 商品 朱 述 ， 由 知 干 个 单词 组 

成 ， 使 用 IowagR(Description) 将 单词 统一 转换 为 
小 写 。 此 时 的 结果 为 DataFrame 类 型 0 rdd 
后 进行 词 频 统 计 ， 再 根据 单词 出 现 的 次 数 进行 降序 
排序 ， 流 程 图 如 下 : 


商品 描述 的 热门 关键 司 Top300 


综合 案例 


志 | 微 信 ShowMeAl 研究 中 心 


中 httpWwww.showmeaitechy 


得 到 的 结果 为 RDD 类 型 ， 为 其 制作 表 

头 wordcountschema ,包含 word 和 count 属性 ， 
分 别 为 string 类 型 和 integet 类 型 。 调 

用 createDpataFrame() 方法 将 其 转换 

为 DataFrame 类 型 的 wordcountDF， 将 word 为 空 
字符 串 的 记录 剔 除 掉 ， 调 用 take () 方法 得 到 出 现 
次 数 最 多 的 300 个 关键 词 ， 以 数组 的 格式 返回 。 


aef wordCcount () : 
WordCount = Spark.SsSd1L ("SELECT LOWER (DescLriPpPt 


WordCountSchema = StructType ([StructEie1lLd("WwW 
WordCountDE = SPark.createDataFrame (WordCoun 
WordCountDE = WordaqCountDE .filtecr (wordqCountDE 
SeEunseaweoraceouneDRseake (00) 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[关键 词 , 次 数 ] 


(6 ) 退货 订单 数 最 多 的 10 个 国家 


InVoiceNo 字段 表示 订单 编号 7 所 以 订单 总 数 
为 coUNT (DISTINCT InvoiceNo) ,由 于 退货 订单 的 


编号 的 首 个 字母 为 C， 例 如 C540250， 所 以 利 

用 wHERE InvoiceNo LIKE '\cs' 子 句 即 可 筛选 出 
退货 的 订单 ， 再 按照 国家 Country 分 组 统计 ， 根 据 退 
货 订 单数 降序 排序 ， 算 选 出 10 个 退货 订单 数 最 多 的 
国家 。 得 到 的 countryReturnInvoiceDF 

为 DataFrame 类 型 ， 执 行 collect () 方法 即 可 和 将 
结果 以 数组 的 格式 返回 


Qqef countryReturnInvoice () : 
CountLEyYReturnInVoiceDE = SParKk.Sd9lL("SETLECT C 


SurnEecounee7RSEUEnRTEAZOECeDRERECOWESIE (人 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


2 ) 天 联 分 析 


(7 ) 月 销售 额 随时 间 的 变化 趋势 
统计 月 销售 额 需 要 3 个 字段 的 信息 ， 分 别 为 订单 日 


期 Invoicepate， 销量 ouantity 和 单 
价 unitPrice。 由 于 invoicepate 字 段 格式 不 容易 处 


理 ， 例 如 “8/5/2011 16:19”, 所 以 需要 对 这 个 字段 进 
行 格 式 化 操作 。 由 于 统计 不 涉及 小 时 和 分 钟 数 ， 所 
以 只 截取 年 月 日 部 分 ， 并 且 当 数值 小 于 10 时 补 前 置 
0 来 统一 格式 ， 期 许 得 到 年 、 月 、 日 3 个 独立 字段 。 
先 实 现 formatData() 方法 ， 利 用 rda 对 日 期 、 销 
量 和 单价 字段 进行 处 理 。 


QQefEftormapaal() 
七 adqeRDD = Qf.select("InVoiceDate"， "Quantity 
reSsSultl = tradqeRDD .map (Lambdqa Line: (Line[" 工 
reSsSult2 = resultl.map(LIambpdqa Line: (Line[0o]. 
reSult3 = tresult2.map(LIambpdqa Line: (Line[o][ 


Ceturn result3 


流程 图 如 下 : 


月 销售 额 随时 间 的 变化 趋势 


7 二 年 e 人 下 


综合 案例 


| 司 三 


/12010"62.55 7 5 
61z2otin836 | [map 20117 3 
ET 5 


人 禄 索 | 油 信 ShowMeAl 研究 中 心 


中 httpwww.showmeaitechy 


由 于 要 统计 的 是 月 销售 额 的 变化 趋势 ， 所 以 只 需 将 
日 期 转换 为 "2011-08" 这 样 的 格式 即 可 。 而 销售 额 表 
示 为 单价 乘 以 销量 ， 需 要 注意 的 是 ， 退 货 时 的 销量 


为 负数 ， 所 以 对 结果 求 和 可 以 表示 销售 额 。RDD 的 
转换 流程 如 下 : 


月 销售 额 随时 间 的 变化 趋势 


Re 


综合 案例 


一 | 
2011.07"28.8 
201107"60.4 010-12"153 
200.07"316 | | reducesy Hey 
0l0-12"153 ono7"604 别 
2010-12"153 


人 得 索 | 微 信 ShowMeAl 研究 中 心 


中 http:Wwwwshowmeaitechy 


得 到 的 结果 为 RDD 类 型 ， 为 其 制作 表 头 schema ， 


含 aate 和 traaePrice 属性 ， 分 别 为 string 类 


四 


型 和 aouble 类 型 。 调用 CeateDataFrame () 方法 


一 


将 和 其 转换 为 DatagErame 类 型 的 七 adqePLriceDE ， 调 


用 collect () 方法 将 结果 以 数组 的 格式 返回 。 


def 七 TadqePrice() : 
reSsSult3 = formatData() 
reSsSult4 = tresult3.map(LIambpdqa Line: (Line[0O]+'" 
reSult5 = Tiesult4.redquceByKey (ambaqa arb:a+b 
Schema = StructType([StructEield("adate"，，， StL 
廿 adqePLriceDF = SPark.ctreateDataFrame (esult5 


return 七 TadqePriceDE.collect () 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[日 期 销售 额 ] 


(8 ) 日 销量 随时 间 的 变化 趋势 


由 于 要 统计 的 是 日 销量 的 变化 趋势 ， 所 以 只 需 将 日 
期 转换 为 "2011-08-05" 这 样 的 格式 即 可 。 移 调用 上 
例 的 formatpata() 方法 对 日 期 格式 进行 格式 化 。 

RDD 的 转换 流程 如 下 : 


攻 
加 日 销量 随时 间 的 变化 趋势 盯 
as 四 
二 | 
晤 
合 案例 ] 
综合 案 侈 上 
CT 5 二 

2 [Sa >》 [Se | [aa > Easy> 
EC 人 EEC 本 

ET ER 


坦 索 | 微 信 ShowMeAl1 研 究 中 心 


得 到 的 结果 为 RDD 类 型 ， 为 其 制作 表 头 schema ， 
包含 qdate 和 saleQuantity 属 性 ， 分 别 为 string 类 型 和 
integer 类 型 。 调 用 createpataFrame () 方 法 将 其 转 
换 为 DataFrame 类 型 的 saleQuantityDF， 调 
用 -collect () 方法 将 结果 以 数组 的 格式 返回 。 


def saleCOuantity() : 
zeSult3 = formatData() 
reSsult4 = Tesult3.map(LIambpdqa Line: (Line[0O]+'" 
reSult5 = esSult4.redquceByKey (Lambaqa arpb:a+b 
Schema = StructType([StructEield("adate"，， StL 


SaleQuantityDE = Spark.createDataFrame (esul 


return SaleQuantityDE .colLllect () 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[日 期 ,销量 ] 


(9 ) 各 国 的 购买 订单 量 和 退货 订单 量 的 关系 


InvoiceNo 字段 表示 订单 编号 ， 退 货 订 单 的 编号 的 
首 个 字母 为 C， 例 如 C540250。 利 

用 couNT (DISTINCT InvoiceNo) 子 句 统计 订单 总 

量 ， 再 分 别 用 WHERE InvoiceNo LIKE 、\Cg%/ 

和 WHERE InvoiceNo NOT LIKE "cs' 统计 出 退货 

订单 量 和 购买 订单 量 。 接 着 按照 国家 country 分 组 
统计 ， 人 


型 ， 分 别 表示 退货 订单 和 购买 订 里 ， 如 下 所 示 : 


各 国 的 购买 订单 量 和 退货 订单 量 的 关系 忆 
二 
医 - 
综合 案例 returnDF buyDF 要 
[counmz | conoew | 国 

“Singapore” 7 


们 ) 搜索 | 微 信 ShowMeAl 研 究 中 心 


中 httpWwww.showmeaitechy 


再 对 这 两 个 DataFrame 执 行 join 操作 ， 连 接 条 件 为 国 
家 Country 相 同 ， 得 到 一 个 DataFrame。 但 是 这 个 
DataFrame 中 有 4 个 属性 ， 包 含 2 个 重复 的 国家 
Country 属 性 和 1 个 退货 订单 量 和 1 个 购买 订单 量 ， 
为 碱 少 几 余 ， 对 结果 算 选 3 个 字段 形成 
buyReturnDF。 如 下 所 示 : 


人 | 

各 国 的 购 们 订单 量 和 退货 订单 量 的 关系 杷 
- 国 
| 


综合 案例 buyReturnDF buyReturnDF 


所 
Country countOfReturn Country2 countoiBuy Country ountofReturn | countofsuy 呈 | 


fasa 
“Sweden 10 | swedem 36 Sweden 19 36 本 | 
Sngapore” |3 | “Singapore 7 Singapore” 3 7 


) 提 索 | 微 信 ShowMeAl 研 究 中 心 


中 httpwww.showmeaitechy 


最 后 执行 collect () 方法 即 可 将 结果 以 数组 的 格式 
返回 。 


aqef PuyReturn () : 
焉 全 二 而 下 站 卜 下 帮 三 要 S 权 3 本 SS 本 (站 站 CCoUnEEYEAB Coun 
四 有三 本 S 人 ak 本 SS 可 天 全 天 本 人 下 汪 人 One 六 3S 古 个 Di 七 荆 y 
buyReturnDE = LeturnDE .Jjoin (puyDE， LetuznDRE [ 
DuyReturnDE = DuyReturnDE .Select (DuyReturnDE 
zeturn buyReturznDE .colLllect () 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[国家 名 称 , 购买 订单 数 , 退货 订单 数 ] 


(10 ) 商品 的 平均 单价 与 销量 的 天 系 
由 于 商品 的 单价 unitpPrice 是 不 断 变化 的 ， 所 以 使 


用 平均 单价 avc(pisriINcT UnitPrice) 来 衡量 一 个 
商品 。 再 利用 sux (ouantity) 计算 出 销量 ， 将 结 
按照 商品 的 编号 进行 分 组 统计 ， 执 行 collect () 方 
法 即 可 将 结果 以 数组 的 格式 返回 。 


def unitPzriceSales () : 
unitPriceSalesDE = SPark.SdqlL ("SELECT StockCo 


zeturn unitPriceSalesDE .collect () 


最 后 调用 save 方 法 就 可 以 将 结果 导出 至 文件 了 ， 格 
式 如 下 : 


[商品 编号 , 平均 单价 , 销量 ] 


3 ) 小 结 


在 sales_dqata_analysis.py 中 添加 main 史 数 ,将 上 


面 的 分 析 过 程 整合 起 来 方便 进行 调用 ， 代 码 如 下 : 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 


GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


乒 操 mame == "main  ": 


base = "static/n 
下 二 人 SSESIRaSE 


os .mkdqir (base) 


1 二 本 | 

eeonnercyeuseome 
meEEhnhoo coneeXGmsteeome 
amvecunecyCsiecmeeaiEcn 

} 

CountreweouanEEy 
metnoa ConEEewCOuant at 
an eeonEyCnanaEy isScn 

}， 

ecunteyenneEErenmee | 
mecnoaoeonnesSmmeOPERCE 
ECSESISG" 

}， 

SEOCKRECUant LE 
eneca 一 scekousanary， 
an socKRouanETEy ison” 


ji 

VONGGIGCGblonesec 本 | 
和 已 芷 乓 全 人 WOSeUnE 7 
Ai 

}， 

全 相 妥 全 人 且 本 站 太 人 2 
"methodq" : _ countryReturnInvVoicey 
an eunieeReiwunNNXONSeNSon7 

}， 

"七 adqePrice": { 

"methodq" : 七 aqePricey 
aneateaeeErkee Son 

} 

"saleQuantity": { 

"methodq" : SaleQuantityv 
出 克 二 从 1 9 光 ee 

} 

oawRSIDOSIS -于 
"methoadq" : puyReturny 
0 

} 

BGSSSEES 2 
method DanceRaceSaTes7 


二 人 有 二 和 记 人 二 长 下 下 二 全 放生 本 SG 


人 Ci 


是 三 是 mnRK 
上 呈 三 本 已 imeeincgq al 
savelEcasemnlkglll eaEn ln soneanps ( 工 () 


En aoneees KATE SaVEeatp 一 > 


上 面 的 代码 将 所 有 的 函数 整合 在 变量 m 中 ， 通 过 循 
环 调用 上 述 所 有 方法 并 导出 json 文 件 到 当前 路 径 的 
static 目 录 下 。 

最 后 利用 如 下 指令 运行 分 析 程 序 : 


Ca 柄 SO 侣 Geaa 人 SS 旋 ak 


./bin/spark-submit sales_dqata_analysis.pPy 


4. 效 据 可 人 钢化 


本 项 目 可 视 化 使 用 百度 开源 的 免费 数据 展示 框 避 
Echarts。Echarts 是 一 个 纯 Javascript 的 图 表 库 ， 可 
以 流畅 地 运行 在 PC 和 移动 设备 上 ， 兼 容 当 前 绝 大 部 
分 浏览 器 ， 底 层 依赖 轻 量 级 的 Canvas 类 库 
ZRender， 提 供 直 观 ， 人 生动， 可 交互 ， 可 高 度 个 性 
化 定制 的 数据 可 视 化 图 表 。 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 


awesome-Al-cheatsheets 
。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


编写 web.py 程 序 ， 实 现 一 个 简单 的 web 服 务 器 ， 代 
码 如 下 : 


COmaEottleeneoce FoDLEESREUD SSECESTTLE 


Emo iSoi 


Qroute ('/static/<filename>') 
Qef server_static(filename) : 


SETDTnEESiEaETCEONIECETIEDSmE AR SSEETUEASLELaticn 
QeEcutei(n <nanmne re kNntml ny) 
Qqef Server_padge (name) : 

zetutrn static_ file(name root=".") 
FESIO 2) 
Qqef inaqex() : 


下 全 臣下 站 本 = 巧 七 下 作 在 II 人 IOEZRSEml CCGEEE .7) 


UnUnesE WU OO Eco 85) 


bottle 服 务 器 对 接收 到 的 请 求 进行 路 由 ， 规 则 如 下 : 


(1) 访问 /static/ 时 ,返回 静 态 文件 
(2 ) 访问 /. ee 返回 网 页 文件 
(3 ) 访问 /时 ， 返 回首 页 index.html 


服务 器 的 8888 端 口 监 听 来 自任 意 ip 的 请 求 〈 前 提 是 
请 求 方 能 访问 到 这 文 台 服务 器 珀 口 5 


首页 index.html 的 主要 代码 如 下 (由 于 篇 幅 较 大 ， 只 
截取 主要 的 部 分 ) 


< 有 OCREEEREmE 


<htm]l amng="enm"> 


<TeaaQ> 
<meta charset="UTR=-87> 
<meta name="viewport" content="width=Qqevice 一 
<title>E-Commerce-Data 在 线 零 售 业务 数据 分 析 </tit 
<StyYyJe> 
/* 省 上 略 */ 
SEA 
</head> 


<DoqQqy> 
<djiVv class="contalineEI7"> 
es 示 第 一 个 统计 结果 的 代码 ， 其 余 省 略 */ 
Ra 和 eliase= Ca 可 OP 
<h3> (I) 客户 数 最 多 的 10 个 国家 


spas 关 


和 Sa 下 由 ES 二 二 全 三 下 企 忆 而 二 有 世人 个 
一 英国 的 客户 最 多 ， 达 到 3950 个 ， 数 量 远大 


</smal1> 
< 
<1Iframe Src="countryCustomer .htm1lL" cC 
< 之 
Easy 之 


<SsScript>dqocument .boqy.clientHeight;</scripPt> 
<Aoeaqx 之 
KE 


图 表 页 通过 一 个 iframe 艇 入 到 首页 中 。 以 第 一 个 统 
计 结 果 的 网 页 countrycustomer .html 为 例 7 展示 主 
要 代码 : 


GE 


<htm]l ang="en"> 


<Pheadq> 
<meta charset="UTITR=-87> 
<StyYyJe> 

/x* 省 略 */ 
</Ssty1Le> 

</head> 


<DodQqy> 


an 下 Q 三 业 攻 人 3 让 SEVEN NEOht95 书 ;></ 
SC 本 SC 三，SaERC7 可 EYE 三 2 人 | 有 古 可 sscrzip: 
<SCcript src="static/echarts-4.7.0.min.js"></scLIl 


<Sen 谤 


Var myChatt = echarts.init (daqocument .getElLeme: 


myChart .SetoOption (人 
{ 


Ge SR 
长 司 加 机 下 
ee EESY 


ax1iSsPointer: { 


廿 YPe : "Shaadqow' 


RE 人生 
Joexohc EGR 人 全 


ContainLabe1l: 廿 TUe 


name : ' 国 家 ' ， 

IEUEEIR 辣 本 

asdiek 
alLignWithLabel: 苇 ue 

} 


axXxlisLabe1lL: { 


IntetrvalL :0， 


rotate:40 
} 
} 
] ， 
YAXxX1iSsS: [ 
{ 
name: ! 客 户 数 ' ， 
} 
] ， 
Serlies: [ 
{ 
name: ! 客 户 数 ' ， 


让 光 SS SOEDEY 证 
SN 6OEY 
@afac jl 串 


}) 7 

myChart .ShowLoadind () ; 

S$.gqetJSON ("/static/countryCustomezr .json'"，dqa 
Var names=[]:; 


Var Pums= []， 


EEC E 汪 本 全 
GOTEEYE 由 O 原 
customeLr : ParseInt (v[1])， 


国明 


Tor 02ar 1071<dataelLendthn7 LT) 
namesseushateaeaillaal 攻 ecuwnesy 元 
nums .Push (qdqata[il.customer) ; 

} 

语 节 直人 有 下 SEE 人 匠 攻 1 二 
AS 

qata: names 
}， 
Series: [{ 
qata: nums 
器 
}) 7 
myYenanekeesnasoaaonnaerg 
忆 
人 Ce 
EBDeqy 之 
Oil 


代码 完成 后 ， 在 代码 所 在 的 根 目录 下 执行 以 下 指令 


启动 web 服 务 器 : 


Python3 web .Py 


若 打印 出 以 下 信息 则 表示 web 服 务 局 动 成 功 。 接 
着 ， 可 以 通过 使 用 浏览 器 访问 网 页 的 方式 查看 统计 


Bottle 70.12.18 server Statrting up (using WSGIRe 
0 人 00 人 099 
4 


我 们 可 以 把 整个 数据 分 析 和 可 视 化 的 过 程 整理 成 一 
个 处 理 流 水 线 ， 编 写 run.sh 脚 本 : 


。 首先 向 spark 提 交 sales_data_analysis.py 程 序 
对 数据 进行 统计 分 析 ， 生 成 的 json 文 件 会 存 入 
当前 路 径 的 static 目 录 下 ; 

。 接着 运行 web.py 程 序 ， 即 启动 web 服 务 器 对 分 
析 程 序 生成 的 json 文 件 进行 解析 泻 染 ， 方 便 用 
户 通过 浏览 器 查看 统计 结果 的 可 视 化 界面 。 


#1/pbin/pbash 
Ga 晤 SOeaiy SS 和 3 
./bin/spark-submit sales_dqata_analysis.pPy 


Python3 web .Py 


注意 : 该 脚本 的 流程 要 能 正常 运行 ， 需 要 保证 
HDFS 中 有 E_Commercce_Data_ Clean.csVv ， 大 家 要 


注意 提前 把 清洗 过 后 的 数据 存放 至 HDFS。 


5. 可 人 钢化 图 示 


(1) 客户 数 最 多 的 10 个 国家 


达到 3950 个 ， 数 量 远 大 于 其 他 国 
法 国 、 西 班 牙 等 。 


ES 
《1) 客户 数 最 多 的 10 个 国家 硬 
四 
| 

有 
S 
号 
二 

和 一 呈 
人 要 索 | 微 信 ShowMeai 研 究 中 心 | 


(2 ) 销量 最 高 的 10 个 国家 


ee 机 
家 ; 7 其 ， 次 是 新 西 兰 、 爱尔兰 德国 等 


二 | 
《2) 销量 最 高 的 10 个 国家 本 
| 


一 


”| 人 从 索 | 逢 洁 ShowMeAl 研 究 中 心 


中 httpWwww.showmeaitechy 


(3 ) 各 个 国家 的 总 销售 额 分 布 情 , 


串 


英国 的 总 销售 额 最 高 ， 达 到 6767873.394 英 镑 ， 占 
比 81.549%6 


(3) 各 个 国家 的 总 销售 额 分 布 情况 


综合 案例 


四 
吧 
外 
可 
吕 
四 


一 
so 因 
] 
本 
] 


ShowMeAl 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


(4 ) 销量 最 高 的 10 个 商品 


编号 为 84077 的 商品 销量 最 高 ， 达 到 53215 件 ; 销量 
Top3 的 商品 在 数量 上 差距 并 不 大 。 


(4) 销量 最 高 的 10 个 商品 


二 查 dpwy 后 利 e 全 看 


微 信 ShowMeAl 研究 中 心 


中 http:W/www.showmeaitechy 


(5 ) 商品 描述 的 热门 关键 词 Top300 


热门 关键 词 包括 bag、red、heart、pink、 
christmas、cake 等 。 


人 | 

了 (5) 商品 楷 述 的 热门 关键 词 Top300 。。 呈 
综合 案例 
吕 


| 呈 提 索 | 微 售 “ShowMEAI 研 究 中 心 


中 http:Wwww.showmeaitechy 


(6 ) 退货 订单 数 最 多 的 10 个 国家 


国 的 退货 订单 最 多 ， 达 到 3208 个 ， 远 大 于 其 他 国 


\ 岂 下/ 六 z5 >/ 气 
7 其 次 是 德国 、 法 国 、 特 小 二 竺 。 


加 
《6) 退货 订单 数 最 多 的 10 个 国家 呈 
名 
人 


中 http/wwwshowmeaitechy 


(7 ) 月 销售 额 随时 间 的 变化 趋势 


销售 额 较 高 的 月 份 主要 集中 在 下 半年 ; 由 于 该 公司 
主要 售卖 礼品 ， 并 且 下 半年 的 节日 较 多 ， 所 以 销售 
额 比 上 半年 高 ; 2011 年 12 月 的 销售 额 较 低 是 因为 数 
据 只 统计 到 2011/12/9 。 


(7) 月 销售 额 随时 间 的 变化 趋势 吧 


[| 
和 用 
om 上 | 
8 
TERRYTGETCZIETRCTEEETYTEET 


| 全) 担 训 | 党 位 _ShowMeAl 研 究 中 心 。 


综合 案例 


中 http:Wwwwshowmeaitechy 


(8 ) 日 销量 随时 间 的 变化 趋势 


下 半年 的 日 销量 整体 上 高 于 上 半年 ; 2011 年 10 月 5 
号 达到 日 销量 的 最 高 纪录 45741 件 。 


| 
(8) 日 销量 随时 间 的 变化 趋势 末 
总 
吕 
综合 案例 多 
唱 
通 
人 有 
过 到 | 二 刘 | 党 信 ShowMeh1 研 究 中 心 - 
中 httpWwww.showmeaitechy | 


(9 ) 各 国 的 购买 订单 量 和 退货 订单 量 的 关系 
购买 订 曲 量 越 大 的 国家 ， 退 货 订 单 量 往往 也 越 大 。 


上 《9) 各 国 的 购买 订单 量 和 退货 订单 量 的 关系 “对 
综合 案例 
队 

轴 

过 售 。ShowMAAL 研 究 中 心 ， 


中 http/www.showmeaitechy 


(10 ) 商品 的 平均 单价 与 销量 的 天 系 
总 体 上 看 ， 商 品 的 销量 随 着 平均 单价 的 升 高 而 下 


降 。 


。 数据 科学 工具 速 查 | Spark 使 用 指南 (RDD 版 ) 
http:/www.showmeai.tech/article-detail/106 
。 数据 科学 工具 速 查 | Spark 使 用 指南 (SQL 版 ) 
http:/www.showmeai.techyarticle-detail/107 


【大 数据 技术 与 处 理 】 推 荐 阅 
读 


。 图解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图解 大 数据 | Hadoop 系 统 搭建 与 环境 配置 @ 实 
操 案 例 

。 图解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 买 操 案 例 

。 图解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 


。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数 据 库 
查询 

。 图 解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
多 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交易 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 音乐 专辑 数据 
@ 综 合 案例 

。 图解 大 数据 | Spark Streaming @ 流 式 数 据 处 
理 

。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 上 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 

。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 

。 深度 学 习 教 程 : 吴 恩 达 专 项 课程 . 全 套 笔记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 . 课 
程 市 学 与 全 套 笔 记 解读 


Sh@w Me Al 


图 解 大 效 据 | 综合 案例 -使 用 
Spark 分 析 挖 掘 音乐 专辑 效 据 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123365115 


ShowMeAI 硬 核资 料 库 ， 用 知识 加 速 每 一 次 技术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/84 
本 文 地 址 : http:/www.showmeai.tech/article- 
detail/178 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


收藏 ShowMeAl 查 看 更 多 精彩 内 容 


引言 


文娱 影音 是 目前 大 数据 与 Al 应 用 最 广泛 的 场景 之 
一 ， 本 案例 以 音乐 专辑 发 行 数 据 为 背景 ， 讲 解 使 用 
pyspark 对 HDFS 存 储 的 数据 进行 处 理 数 据 分 析 的 过 
程 ， 并 且 对 分 析 结 果 做 了 可 视 化 呈现 。 


1. 买 验 环 境 


。 (1)Linux: Ubuntu 16.04 

。 (2 ) Python: 3.8 

。 (3) Hadoop : 3.1.3 

。 (4) Spark: 2.4.0 

。 (5 ) Web 框 慷 : flask 1.0.3 

。 (6 ) 可 视 化 工具 : Echarts 

。 (7 ) 开发 工具 : Visual Studio Code 


为 了 支持 Python 可 视 化 分 析 ， 大 家 可 以 运行 如 下 命 
令 安 装 Flask 组 件 : 


Se EECERNNSIEERD ONAEIIOOSES oo 
忆 吉 加 S 生 Sa 人 站 


2. 飞 验 数 据 集 


1 ) 数据 集 说 明 


数据 集 和 源 代 码 下 载 

链接 : https:Wpan.baidu.comny/ 
S/1C0OVI6w679izw1RENyGDXSsw 
提取 码 : show 


本 案例 的 数据 集 来 自 于 Kaggle 平 台 ， 数 据 名 称 
albums.csv， 包含 了 10 万 条 音乐 专辑 的 数据 ( 大 家 
可 以 通过 上 述 百 度 网 盘 地 址 下 载 ) 。 主 要 字段 说 明 
如 下 : 


。album_title : 音乐 专辑 名 称 

genre : 专辑 类 型 

year_of pub : 专辑 发 行 年 份 

。num_of tracks : 每 张 专辑 中 单 曲 数量 
。num_of sales : 专辑 销量 
。rolling_stone_critic : 滚石 网 站 的 评分 
mtv_critic : 全 球 最 大 音乐 电视 网 MTV 的 评分 


music_ maniac _critic : 音乐 达 人 的 评分 


2 ) 上 传 效 据 至 HDFS 


(1) 启动 Hadoop 中 的 HDFS 组 件 ， 在 命令 行 运行 
下 面 命令 : 


条 s 人 用 cangmaaeoegyh 人 EDaimyAsEsee 加 有 SS 检 


(2 ) 在 hadoop 上 登录 用 户 创建 目录 ， 在 命令 行 运 
行 下 面 命令 : 


hdfs qfs -mkdqir -P /user/hadoopP 


(3 ) 把 本 地 文件 系统 中 的 数据 集 albums.csv 上 传 
到 分 布 式 文件 系统 HDFS 中 : 


Joebeis iebeiS ep 天 证 oOSSGSSY 


3.pyspark 数 据 分 析 


1 ) 建立 工程 文件 


(1 ) 创建 文件 夹 code 
(2 ) 在 code 下 创建 project.py 文 件 
(3 ) 在 code 下 创建 static 文 件 夹 ， 存 放 静 态 文 件 


(4 ) 在 code/static 文 件 夹 下 面 创 建 data 目 录 ， 存 放 
分 析 生 成 的 json 数 据 


2 ) 进行 数据 分 析 


本 文 对 音乐 专辑 数据 集 albums.csv 进 行 了 一 系列 的 
分 析 ， 包 括 : 


(1 ) 统计 各 类 型 专辑 的 数量 

(2 ) 统计 各 类 型 专辑 的 销量 总 数 

(3 ) 统计 近 20 年 每 年 发 行 的 专辑 数量 和 单 曲 数量 
(4 ) 分 析 总 销量 前 五 的 专辑 类 型 的 各 年 份 销 量 
(5 ) 分 析 总 销量 前 五 的 专辑 类 型 ， 在 不 同 评分 体系 
中 的 平均 评分 


3 ) 代码 实现 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


project.py 代 码 如 下 : 


GDXSBansemDO 的 间 3 人 CE 
Oh 筷 ssideSessnonm 


加 下 已 汪 可 SS 人 加 


# 统 计 各 类 型 专辑 的 数量 ( 只 显示 总 数量 大 于 2000 的 十 种 专辑 类 型 
QesfEdseinnassec ESsCanee 二 GE 
# 按 照 senre 字 段 统计 每 个 类 型 的 专辑 总 数 ， 过 滤 出 其 中 数量 
# 并 取出 10 种 类 型 用 于 显示 
可 册 三 本 人 末世 刘 检 民生 放 全 站 下 外 站) 大 让 让 刘 站 下 本 人 (coun 
# 把 1ist 数 据 转 换 成 json 字 符 串 ， 并 写 入 到 static/dqataE 
上 = open('static/dqata/genrze.json'， WII) 
RAWEaEEeeGGmESASO 


GEOSLE 芍 ) 


# 统 计 各 个 类 型 专辑 的 销量 总 数 
aqef 9enreSales (SC，SPark，dqf) : 


jj = qtf.select('Igenre'"，'num of sales') .zaqqx 
map (Lambda 7: (v.genre， int (v.num| of _ sa 
.eaquceByKey (Lambaqa X yYy: X + Yy) .col 
E = open('static/dqata/dgenre-sales.json'，'w' 
OO 


EGROSISRAU 


# 统 计 每 年 发 行 的 专辑 数量 和 单 曲 数量 

aqef YearITracksAnaqSales (SCc， SPark，qf) : 
# 把 相同 年 份 的 专辑 数 和 单 曲 数量 相 加 ， 并 按照 年 份 排序 
result = Qf.select("year of Pupb"， "num|l of 七 


[七 


regGuceByKe>lLameaanx LOI + y[ 
.SOLLBYKey ()N\ 
GOUWeetes 人 


# 为 了 方便 可 视 化 实现 ， 将 列表 中 的 每 一 个 字段 分 别 存 储 


ans = {} 

ans['years'] = List(map(Lambdqa vV: vV[0]/ Fresu 
站 人 由 下 攻 呈 囊 基 二 DSSa 2 [0O]， 
ae alpbonenls= asSEae anoda > 川 [1]， 


f = open('static/data/year-tracks-andq-sales . 
f.write(json.dqumps (ans) ) 


EREOSERO 


# 取 出 总 销量 排名 前 五 的 专辑 类 型 
Qqef GenreList (sc Spark，，dqf) : 
dentre_list = Qf.g9roupBy('dentre') .count ()A 
.OradqerBy ('count 'y ascending = False) .rdd.l 


zeturn 9g9enre_11st 


# 分 析 总 销量 前 五 的 类 型 的 专辑 各 年 份 销 量 

Qqef GenreYearSales (sc Spark，，dqf，denre_1ist) : 
# 过 滤 出 类 型 为 总 销量 前 五 的 专辑 ， 将 相同 类 型 、 相 同年 份 的 
reSult = Qqf.select('gqenre'"， year of Pupb'，， 
.filter(LIambdqa vV: V.genre in genreJ 1ist) 
-map (Lambdqa V: ((v.genre int (vv.YyeaL. 
.edquceByKey (Lambdqa xX Y: X + Y) 

SOEEEBNRKRESNREEEoe ct 全 


# 为 了 方便 可 视 化 数据 提取 ， 将 数据 存储 为 适 配 可 视 化 的 格式 
名 三 二 让 ayLO] [1 
ans = !{} 

for gente in genre_ list: 


ans [genre]l = List(filter(lLambqa vv:Iv[0] 


fE = open('static/dqata/dgenre-year-sales.json' 
f.write(json.dqumps (ans) ) 


IEROSE 广 二 


# 总 销量 前 五 的 专辑 类 型 ， 在 不 同 评分 体系 中 的 平均 评分 
Qqef GenrecCcritic(sc Spark，dqf，dgenre_1list) : 
# 过 滤 出 类 型 为 总 销量 前 五 的 专辑 ， 将 同样 类 型 的 专辑 的 滚石 
result = qf.select('genre"， "rolling _ stone _c 
.filter(LIambdqa vV: V.genre in genreJ 1ist) 
-map (Lambdqa V: (v.genre (float (v.rol1Lin 
weie 20 前 Eee 国人 
TaGIISmioOSEZG ROSE ZI[m 同 区 人 @ 吕 攻 全 加 天 辐 中 [237 六 


在 性 本 G 记 STRUSES TIC7 aayoenmeeeenEnCRSSoh7 ， 


上 OUmDSES 训 人 林 


SCIEOSES 
# 代 码 入 口 
SITI 人 GE 人 三 ET CSNI E: 


SG 是 三 量 SansCEontext OCS ESSice 


SC.SetLogLevel("WARN" ) 
SPark = SparkSession.builder.getOrCreate () 
二 全 BUS 


Qqf = Spark.readq.csv(file，heaqer=ITrue) :上 aat 
genre_list = GenreList (sc ， Spark，，dqf) 


gemeerksecAsseansk ay 

9enreSales (SCc，SPark，， aqf) 
YearIracksAnaqSales (SCc，SPark， qdqf) 
GenreYearSales (sc Spark， qdqf，denre_1ist) 


全 人 有 下 已 亿 下 下 攻 TCTeC SS 


4 ) 代码 运行 


(1) 在 Ubuntu 终端 窗口 中 ， 用 hadoop 用 户 登 
录 ， 在 命令 行 运行 su hadoop， 并 输入 用 户 密码 。 
(2 ) 进入 代码 所 在 目录 。 

(3 ) 为 了 能 够 读 取 HDFS 中 的 alLbums .CSV 文件 7 
在 命令 行 运行 : 


SGeasigehiaaeoepAsonnysieankeaj 丰 SS 
(4 ) 在 命令 行 运 行 : 


局 站 二 本 让 EeCE 


4. 可 钢化 实现 


本 案例 的 可 视 化 基于 Echarts 实 现 ， 实 现 的 可 视 化 页 
面部 嗜 在 基于 flask 框 架 的 web 服 务 器 上 。 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


1 ) 相关 代码 结构 


(1 ) 在 codae 目 录 下 新 建 visualizationFlask.py 
文件 7 存放 Flask 应 用 。 

(2 ) 在 code 目 录 下 新 建 一 个 名 为 templates 的 文 
件 夹 ， 存 放 html 文 件 。 

(3 ) 在 code/static 目录 下 新 建 一 个 名 为 js 的 
文件 夹 ， 存 放 js 文件 。 


2 ) 建立 Flask 应 用 
在 SparkFlask.py 文 件 中 复制 以 下 代码 : 


fxrom flask import cenqer 廿 empP1ate 
OoskmociieRaSK 


# from 11Vereloadq import Server 


appPp = 了 Lask( name  ) 


US 
Qef 1Inaqex() : 
# 使 用 renqer_template() 方法 来 演 染 模板 


return rendqer _ template("indqex.html') 


Qapp.route('"/<filename>') 
Qqef redq_ file(filename) : 


return rendqer template (filename ) 


If name == 1! _ main  ': 
app.DEBUG=True# 代 码 调试 立即 生效 


app.jinja_env.auto_reload = True# 模 板 调试 立即 生 


app.zun()# 用 run() 函数 来 让 应 用 运行 在 本 地 服务 器 上 


3 ) 下 载 js 文件 


(1 ) 在 网 站 上 下 载 jQuery (https:/ 
cdn.bootcss.coryijiquery/3.4.1Viquery.min.js ) ， 将 
其 另存 为 jquery.min.js 文件 ， 保 存 

在 coqe/static/ 林 js 目录 下 。 


(2 ) 在 官网 下 载 界 面 下 载 Echarts ( https:/ 
echarts.apache.org/zh/download.html ) ， 和 将 其 另 


存 echarts-g9l.min.Jjs 文件 ， 保存 
在 coqe/static/Js 目录 下 。 


4 ) Echarts 可 视 化 


(1) 在 code/templates 目 录 下 新 建 index.html 文 
件 。 复 制 以 下 代码 : 


KROCTRRHEEmili2 


支 七 和 上 上 虐 a 矶 可 三 ”台南 过 


<DneaaQ> 
<meta charset="UTE 一 8"> 
<meta name="viewport" content="width=QqQevice 一 
<meta httPp-edquliv="X-UA-Compatible" content=" 
< 七 Ii 七 Le>Music</tiL1Le> 


</head> 


<DoaQqy> 
<h2> 音 乐 专辑 分 析 </nh2> 
<Ul Style="1ine-height: 2em"> 
<1i><a href="genre.html"> 各 类 型 专辑 的 数量 统 


<1Li><a href="genre-sales.htmL"> 各 类 型 专辑 上 


<1 工 ><a href="yeaLr-tzacks-andq-salesLhtml": 


<1L1><a href="genre-year-sales .html"> 总 销 重 
<11><a href="genre-critic.htmlLn> 总 销量 前 五 
< 和 il 
< Moqy 之 
< 


index.html 为 主页 面 ， 显 示 每 一 个 统计 分 析 图 所 在 页 面 的 链接 。 


(2 ) 在 code/templates 目 录 下 新 建 genre.html 文 
件 。 复 制 以 下 代码 : 


KGGCRNYRRE 重 htmi 芝 
< 


<headq> 
<Imeta charset="Utf 一 87"> 
< 七 I 七 Le>ECharts</tiL1Le> 
< | 入 SEE 也 三 
Se 本 ETCYSYeehnaeEs 三 Rs"></ 
Se 的 本 SE2 汪 /SCII 
</nhead> 


<body> 
<!-- 为 ECharts 准 备 一 个 具备 大 小 〈 宽 高 ) 的 pom --> 
<a href="/">Return</a> 
交 本 下 


<lom> 


<Qiv 1Idq="dgenre" stylLe="widqth: 480Pxyheight :5 
<ScLript 七 YPe="text/]Jjavascript"> 
$.gqetJSON ("static/dqata/denre.json" qd => 
_aata = Q.map(v => ({ 
name: [0]， 
Value: Y[1l] 


局 
// 基于 准备 好 的 som， 初 始 化 scharts 实 例 


Var myChatt = echarts.init (aqocument . 


// 指定 图 表 的 配置 项 和 数据 


Option = { 
区 | 
text : "各 类 型 专辑 的 数量 统计 图 '， 
subtext: ' 从 图 中 可 以 看 出 Indie 类 
AReEREET 
人 和 
}， 
有用 区 用 < 
CGI 
GEmSiEEE 下 二 放生 玫 演 名) 3: 1 
} 
egendq: { 
六 二 全 人 放生 在 芷 全 全 


YE EGG 
qata: QqQ.map(v => V[0]) 


} ， 
IEOIOaorSseR 


SS 上 CUE7 
Eeakcure 
We )}， 
dqataView: { Show: 七 Tueyv 
madg9qicType: { 
Show: 七 TUey 
本 ype: ['pie'"， "funne 
} 
EestionecashnoNmeaierue }， 


SaVeAsImage: { Show: 七 YU 


} 
@aeUSHb 下 eswe7 
Series: [ 
{ 
name: "半径 模式 '， 
全 记 从 生生 人 主 全 疙 了 
GUIS ESORETESIOIE 


GEnEST 放 OSO SDDS7]， 
xzoseTypPe: "radqius "| 
下 3 所 ET 


二 计 <| 

Show: alse 
} 
emphasis: { 


Show: 七 YUe 


} v 


ableLine: ({ 
ICOaIUE 训 必 
Show: [false 


}， 
emphasis: { 


Show: 七 YUe 


} ， 
dawsaEQatea 


} 7 


// 使 用 刚 指定 的 配置 项 和 数据 显示 图 表 。 
放生 二 和 攻 和 所 第 丰 COTECeRETETEGe 
} ) 
ESG 
</Dpbodqy> 
< 和 ml 二 


这 个 通过 读 取 coqe/static/dqata/dgenre.Jjson 中 
的 数据 ， 男 出 玫 现 图 ， 显 示 各 类 型 专辑 的 数量 。 


(3 ) 在 code/templates 目 录 下 新 建 genre- 
sales.html 文 件 。 复 制 以 下 代码 : 


DOEGRYREEIETmTIE> 


Emal> 


<Pheadq> 


<meta charset="utf 一 8"> 


二 


| 入 全 相生 避 下 二 过 


SONGESEEIEEG 多 SGneeSSRROUTOESII Ed 


Se 克拉 和 ERRORISE22 本 /SCII 


</head> 


<DoqQqy> 


二 二 几 基 全 本 帮手 民 全 臣 训 天 有 < 外 过 


< 之 
< 下 这 
二 二 


< 


为 ECharts 准 备 一 个 具备 大 小 〈 宽 高 ) 的 Dom --> 


id="genre-sales" style="widqth: 1000pxjnh 


SC 站 长生 世人 认 全 三 汪 臣 全文 苹 /本 这 本 生生 开 从 让 


$.dgetJSON ("static/dqata/genre-sales.jsonn 


Gonmse 业 le 下 onftai 


// 基于 准备 好 的 som， 初 始 化 scharts 实 例 


Var myChatrt = echarts.init (aqocument . 


WSIOETIEEIASGES EUEIORAAE 二 双 芭 0 用 下 


Var daqata = Q.map(v => ParseIntiI(v[1L])， 


Option = { 


INcas SS | 


text: ' 各 类 型 专辑 的 销量 统计 图 ' ， 
subtext : 该 图 统计 了 各 个 类 型 专辑 
人 
CEEomEeO 
人 

}， 


GOROTe [电光 人 忆 则 尼 辣 本 腺 

| 
eta<SY 
axisPointer: 1{ // 

type: !shadqow' / 

} 

} ， 

hsato 恒 


OOjRNE 情人 
jelelEIEeitlS ENSO 和 


ContainLabe1l: 廿 ruUe 


INMeS ReEiesielehey 

Qata: qataAxis， 

EAINGLICS 
Show te 
alLignWithLabel: t 上 rue 
Intezrval: 0 


} ， 


章 


axlisLabe1lL: { 
IntetrvalLl: 0， 


OO 志 at 45 


YAX1iS: [ 
{ 
本 ypPpe: "Value '， 
name: " 划 MilLlLlion Albums' 
nameLocation: "midQle"， 
nameGap: 50 
} 
] ， 
Series: [ 


{ 
name: ! 直 接 访问 ' ， 
IENoS ReERe 二 
asWGienR 人 二 六 二 
QaEea qqaa 


} 7 


// 使 用 刚 指定 的 配置 项 和 数据 显示 图 表 。 
生 闻 全 亲 有 全 志 让 让 二 RD 二 有 入 


ATeoeooe 芝 
</ podqy> 
mi 


A- 


这 个 通过 读 
取 codqe/static/data/genre-sales.json 中 的 数 
据 ， 画 出 柱状 图 ， 显 示 各 类 型 专辑 的 销量 总 数 。 


(4 ) 在 code/templates 目 录 下 新 建 year-tracks- 
and-sales.html 文 件 。 复 制 以 下 代码 : 


<GOGNSNY 世人 h 下 六 
< 


<head> 
<meta charse 世 =7"utfE 一 87"> 
< 七 I 七 Le>ECharts</iL1Le> 
<!-- 引入 echarts.js --> 
<ScCript src="static/js/echarts-gl.min.0ls"></ 
多 多 车 ET 这/ SC 
</nhead> 


<DodQy> 
< 全 三 RE 作用 双 
bus> 


<loi 


<!-- 为 BCharts 准 备 一 个 具备 大 小 〈 宽 高 ) 的 pom --> 
<qivV 1dq="canvas" Style="widqth: 1000Pxyheidght 
<ScFript 七 YPe="text/Jjavascript"> 

$.dgetJSON ("static/data/year-tracksrand-s， 


ComsoekesEeookaeh 


// 基于 准备 好 的 som， 初 始 化 scharts 实 例 


Var myChatrt = echarts.init (daqocument . 
二 6617 ， 
Option = { 

Eee 


text: ' 近 20 年 的 专辑 数量 和 单 曲 数 和 
人 
// subtext: 该 图 显示 了 从 2000 年 
} 
EEC 
ee 
} 
edgenaq: { 
data: ['" 单 曲 数量 '， ' 专辑 数量 ' ] ， 
OO 
}， 
Eeeloiep<5 | 
Show: 七 YUeyv 
Eeatcurs :ai 
Qqata2oom: { 


YAX1iLSIndex: "noney' 


} 
dataVview: { ieadqdonly: fa 


CTYEELEYEE | [11n 
CeStore: ({)}， 


SaVeAsImage: ({} 


} 

AR SS 
廿 YPe: " category '， 
DoundaryGap: false， 
QaeaceaiReeansSsil 太 
leeunaanmrxeaeaals 思 02OS7] 

} 

AS 
本 ype: "Value '， 
和 DSS 9 
axisLabel: { 


Eormatitee fa 


}， 
Serlies: [ 
{ 
name: " 单 曲 数量 ' ， 
EeeENE 
IEUEEVReHRIEOSEIGOICE 全 了 
GE 人 有 本 性 


name: "专辑 数量 ' ， 
LENWMeISR oORL 

加 吉 区 下 同人 司 可 叶 ji S 人 | 
barGap : :和 2 
et 


} ; 


// 使 用 刚 指 定 的 配置 项 和 数据 显示 图 表 。 
myChart .SetoOoption(option) ，; 


} ) 
Reoeae 之 
</ podqy> 
交角 风机 陀 


这 个 通过 读 

取 coaqe/static/dqata/ year-tracks-andq-sales.json 
中 的 数据 ， 画 出 柱状 图 ， 显 示 近 20 年 每 年 发 行 的 专 

辑 数 量 和 单 曲 数量 。 


(5 ) 在 code/templates 目 录 下 新 建 genre-year- 
sales.html 文 件 。 复 制 以 下 代码 : 


出 OIC 了 有 的 机 和 的 到 


Enmii> 


<head> 
<meta Charset="UtfE 一 87"> 
< 七 I 七 Le>ECharts</iL1Le> 
<!-- 引入 echarts.js --> 
STR 本 SSESETRCI9SYKeGhnaeEs 三 Rs"></ 
Se 区 的 生 ER SS 本 /SC 
</nhead> 


<DoqQqy> 
<a href="/">Return</a> 
<JDIL> 
六 要 天 之 
<!-- 为 BCharts 准 备 一 个 具备 大 小 ( 宽 高 ) 的 pom -=-> 


<Qiv 1Idq="genre-year-Sales" sty1lLe="widqth: 100 


SET 站 攻 本 世人 认 全 三 汪 臣 人文 苹 / 亲 记 二 全 基 开 从 让 王 


$.gqetJSON ("static/dqata/denre-year-sales . 


Conmse 业 le 二 下 onfta 


// 基于 准备 好 的 dom， 初 始 化 scharts 实 例 
Var myChatrt = echarts.init (aqocument . 
OPtion = { 
Jegenaq: ({)}， 
上 
Eee 
ShowContent : false 


} ， 


Qataset: { 


Sunrecen li 
[ee ] 
[Rap 

] 

}， 

XAX1S: { Lype: "category' }， 
YA Se 有 
Ga GO 让 | 
Series: [ 

{ type: "Line"，， Smooth: true 

{ type: "Line"，， Smooth: true 

{ type: "Line"，， Smooth: true 

SOERE 七 YUe 

{ 上 type: "1ine"， smooth true 

{ 


长 从 全 二 和 人 寺 全 


入 全 三 二 二 站 

GUIS 5 

Geneere SO 2 村 | ， 
Se 玫 | 


Eormatter: "{bl: ({Q2 
过 


encodqe: { 


ItemName: "Year"v 
aaaces OO 
国 9 风 全 2 人 00 人 人 


章 


} ; 


myeGhankEsonupaatEeAxoassRBonEsT unc: 
Var XAxXiSsInfo = event .axesInfo[0 
人 
Var qimension = XAX1iSsInfo.Va 
myChart .setoOption (1{ 
Serlies: { 
汪汪 人 2 
EUoGESO 
Ermatetses jl (Di: 
} 
SnmCcoqe 
Value: qimension 


七 oolLtipPp: Qimensi 


癌 胞 


有 


// 使 用 刚 指 定 的 配置 项 和 数据 显示 图 表 。 
生 闻 全 亲 有 全 志 让 让 二 RD 二 有 入 


AR oe 
</Dpodqy> 
< em 


这 个 通过 读 


取 coqe/static/data/ genre-year-sales.json 
中 的 数据 ， 画 出 扇形 图 和 折线 图 ， 分 别 显示 不 同年 
份 各 类 型 专辑 的 销量 占 总 销量 的 比例 ， 和 总 销量 前 
五 的 专辑 类 型 的 各 年 份 销 量变 化 。 


(6 ) 在 code/templates 目 录 下 新 建 genre- 
critic.html 文 件 。 复 制 以 下 代码 : 


< GGTRNEER 硬 hi 世 和 下 交 
< 


<Pheadq> 
<meta charset="utf-87> 
< 七 I 七 Le>ECharts</tiL1Le> 
<!-- 引入 echarts.js --> 
< 本 SECShechatsoEannEDSs"></ 
Se 区 本 ER 可 SSCII 


< /meaa> 


<DoqQqy> 


< 本 下 全 三 RSIED2 兴 关 


<lohs> 


<loi 


<!-- 为 BCcharts 准 备 一 个 具备 大 小 〈 宽 高 ) 的 pom --> 


<dQqiv 1Idq="dgenre-critic" style="widqth: 


<SCcript 七 YPpe="text/JjavascripPt"> 


1D00PXx7 


S$.getJSON ("static/dqata/dgenre-critic.Jjson 


conmsoeeeco(Gj 区 


// 基于 准备 好 的 som， 初 始 化 scharts 实 例 


Var myChatrt = echarts.init (daqocument . 


Option = { 
edgenaq: ({)}， 
全 
Qakeaset if 


SOUaGSRS NI 


本 oemee 名 有 ap => : 


莉 定 Ci 辣 g 本 SEOnme 本 eic 


EECGISDOEIESG 


.QQ.map(: 


smSICEmamTS CC 本 CarIcC7 


} v 


Oo 人 GE | 


{ type: "catedgory '，gridqInde 


{ type: "catedgory '，gridqInde 


] 
YAX1LS: [ 
人 


人 交加 人 OOeRCTERRR 


风 二 7 
:4 


] ， 

加 OSI 
GE 和 厅 
(DSS 

人 

Serlies: [ 


NTness seresaEeSanI the 工 


{ type: "bar'，， seriesLayoutB 
{ 上 type: "bar'，， SeriesLayoutB 


{ 上 type: "bar'，， SeriesLayoutB 


// These series are inlthe s， 
人 有 六合 所 二 斑 sex: 工 
{ type: "bar'"，，XAXiSsSInaeX: 工 
站 ex: 工 
{ type: "bar"'，XAXiSsSInaeX: 工 


} 7 


// 使 用 刚 指定 的 配置 项 和 数据 显示 图 表 。 
myehaeee SecOpbeonmtopteaneony 甩 
} ) 
< secmapt 
</Dpbodqy> 
< 


-> 


这 个 通过 读 


取 coaqey/static/data/ qenre-critic.json 中 的 


数据 ， 画 出 柱 形 图 ， 显 示 总 销量 前 五 的 专辑 类 型 ， 
在 不 同 评分 体系 中 的 平均 评分 。 


5 ) web 程 序 局 动 


9@ 在 另 一 个 Ubuntu 终端 窗口 中 ， 用 hadoop 用 户 登 
录 ， 在 命令 行 运 行 su hadoop， 并 输入 用 户 密码 。 
Q@ 进入 代码 所 在 目录 。 


@ 在 命令 行 运行 如 下 命令 : 
SEEark=sUDnLwvisualazatncnRlaskeey 


@@ 在 浏览 器 打开 http://127.0.0.1:5000/， 可 看 
到 如 下 界面 : 


本 
| 
四 Music x 十 0 
它 
音乐 专辑 分 析 3 
本 加 


中 http:Wwww.showmeaitechy 


(1 ) 各 类 型 专辑 的 数量 统计 图 
从 图 中 可 以 看 出 Indie 类 型 的 专辑 数量 最 多 。 


(1) 各 类 型 专辑 的 数量 统计 图 


综合 案例 


微 信 ShowMeAl 研究 中 心 | 


中 http:Wwww.showmeaitechy 


(2 ) 各 类 型 专辑 的 销量 统计 图 
该 图 统计 了 各 个 类 型 专辑 的 销量 和 “， 从 图 中 可 以 看 
出 Indie 类 型 的 专辑 销量 最 高 ， 将 近 47 亿 。Pop 类 型 


的 专辑 销量 排 在 第 二 ， 约 为 39 人 2。 


(2) 各 类 型 专辑 的 销量 统计 图 


中 httpwww.showmeaitechy 


信 StiowWMeAl 研 究 中心 
httpywwwshowmeaitechv ED 


多 


(4 ) 总 销量 前 五 的 专辑 类 型 的 各 年 份 销 量 分 析 攻 


加) 四 
区 CR di 23a077506 149 (4) 总 销量 前 五 国 
| 


的 专辑 类 型 的 各 上 
综合 案例 人 年 从 销量 分 析 图 所 


(5 ) 总 销量 前 五 的 专辑 类 型 的 评分 分 析 图 


ja 
(5) 总 销量 前 五 的 专辑 类 型 的 虽 
| 
| 


| 本 | 有 二 四 | | 下 3 
28， 四 


5. 参 考 资料 
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http:/www.showmeai.techyarticle-detail/107 


【大 效 据 反 术 与 处 理 】 推 荐 阅 


所 一 | 
六 上 


。 图 解 大 数据 | 大 数据 生态 与 应 用 导论 

。 图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图解 大 数据 | Hadoop 系 统 搭 建 与 环境 配置 @ 实 
操 案 例 

。 图 解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图解 大 数据 | Hive 拱 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数据 库 
查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
砂 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零 售 交易 数据 
@ 综 合 案例 


。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 音乐 专辑 数据 


综合 案例 


@ 
。 图解 大 数据 | Spark Streaming @ 流 式 数 据 处 
理 


。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 
。 机 器 学 习 实战 : 手把手 教 你 玩 转机 器 学 习 系列 
。 深度 学 习 教 程 : 吴 恩 达 专项 课程 . 全 套 笔 记 解 


读 


。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 
程 带 学 与 全 套 笔记 解读 


Sh@w Me Al 


' 课 
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Spark Streaming 
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ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 
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本 文 地 址 : http:W/www.showmeai.techyarticle- 
detail/179 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.Spark Streaming 解 读 


3 
ER 
Spark Streaming 光 9 要 Cape 

[HpFs/s3 ] POQIH Data bases 


| Sireoming 


Twitter ] ShowMeAI 


| @ 要 案 徽 信 ShowMeA1 研 究 中 心 ] 


1) Spark Streaming 简 介 


Spark Streaming 是 Spark 核 心 API 的 一 个 扩展 ， 可 
以 实现 实时 数据 的 可 拓展 ， 局 吞吐 量 ， 容 销 机 制 的 
实时 流 处 理 框 架 


入 和 


Spark Core 
2 Data Source we 


Spark Streaming 支持 的 数据 输入 源 很 多 ， 例 如 : 
Kafka、 Flume、Twitter、ZeroMQ 和 简单 的 TCP 
套 接 字 等 等 。 数 据 输入 后 可 以 用 Spark 的 高 度 抽 象 
原 语 如 : map、reduce、join、window 等 进行 运 


算 。 而 结果 也 能 保存 在 很 多 地 方 ， 如 HDFS， 数据 


库 等 。 另 外 Spark Streaming 也 能 和 MLlib (机 器 学 
习 ) 以 及 Graphx 完美 融合 。 


(1 ) 法 数据 特 操 


。 数据 一 直 在 变化 
。 数据 无 法 回 退 
。 数据 始终 源源 不 断 涌 进 


(2 ) DStream 概 念 


和 Spark 基于 RDD 的 概念 很 相似 ，Spark 
Streaming 使 用 离散 化 流 (discretized stream) 作 为 
抽象 表示 ， 叫 作 DStream。DStream 是 随时 间 推 移 
而 收 到 的 数据 的 序列 。 在 内 部 ， 每 个 时 间 区 间 收 到 
的 数据 都 作为 RDD 存在 ， 而 DStream 是 由 这 些 
RDD 所 组 成 的 序列 (因此 得 名 "离散 化 ")。 


(3 ) DStream 形 成 步骤 


。 针 对 某 个 时 间 段 切 分 的 小 数据 块 进行 RDD 
DAG 构 建 。 
连续 时 间 内 产生 的 一 连 串 小 的 数据 进行 切片 处 
理 分 别 构建 RDD DAG， 形 成 DStream。 


定义 一 个 RDD 处 理 逻 辑 ， 数 据 按照 时 间 切 片 ， 每 次 
流入 的 数据 都 不 一 样 ， 但 是 RDD 的 DAG 逻 辑 是 一 样 
的 ， 即 按照 时 间 划 分 成 一 个 个 batch， 用 同一 个 辑 
处 理 。 


Spark Streaming 


DStream 可 以 从 各 种 输入 源 创 建 ， 比 如 Flume、 
Kafka 或 者 HDFS。 创 建 出 来 的 DStream 支持 两 种 
操作 ， 一 种 是 转化 操作 (transformatiom)， 会 生成 一 
个 新 的 DStream， 另 一 种 是 输出 操作 (output 
operation)， 可 以 把 数据 写 入 外 部 系统 中 。DStream 
提供 了 许多 与 RDD 所 支持 的 操作 相 类 似 的 操作 支 
持 ， 还 增加 了 与 时 间 相 关 的 新 操作 ， 比 如 滑动 窗 
口 。 


2 ) Spark Streaming 特 点 


Spark Streaming 


IEe 人 AT 


2 
忆 


当 
人 .@@ 


多 有 oOww 


容错 易 整 合 到 Spark 体 系 中 


-)] 搜索 | 微 信 ShowMeAlI 研 究 中 心 | 


Spark Streaming 有 下 述 一 些 特点 : 


。 易 用 : Spark Streaming 支 持 Java、Python、 
Scala 等 编程 语言 ， 可 以 像 编 写 离线 程序 一 样 
编写 实时 计算 的 程序 求 照 的 器 。 


。 容错 : Spark Streaming 在 没有 额外 代码 和 本 
置 的 情况 下 ， 可 以 恢复 丢失 的 数据 。 对 于 实时 
计算 来 说 ， 容 错 性 至 关 重 要 。 首 先 要 明确 一 下 
Spak 中 RDD 的 容错 机 制 ， 即 每 一 个 RDD 都 是 
个 不 可 变 的 分 布 式 可 重 算 的 数据 集 ， 它 记录 着 
确定 性 的 操作 继承 关系 (lineage)， 所 以 只 要 输 
入 数据 是 可 容错 的 ， 那 么 任意 一 个 RDD 的 分 区 
(Partition) 出 错 或 不 可 用 ， 都 可 以 使 用 原始 输入 
数据 经 过 转换 操作 重新 计算 得 到 。 


。 易 整合 到 Spark 体 系 中 : Spark Streaming 可 以 
在 Spark 上 运行 ， 并 且 还 允许 重复 使 用 相同 的 
代码 进行 批 处 理 。 也 就 是 说 ， 实 时 处 理 可 以 与 


离线 处 理 相 结合 ， 实 现 
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3 ) Spark Streaming 架 构 
大 家 知道 Spark 的 工作 机 制 如 下 : 


工作 节点 马 
1 驱动 器 程序 执行 器 Wi 
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Task execution 


Block manager 


Block tracker 


在 上 图 中 几 个 核心 的 角色 和 功能 分 别 是 : 


。Master : 记录 Dastream 之 间 的 依赖 关系 或 者 血 
缘 关 系 ， 并 负责 任务 调度 以 生成 新 的 RD 


。 Worker : 


O @ 从 网 络 接收 数据 并 存储 到 内 存 中 
O @ 执 行 RDD 计 算 


。Client : 负责 向 Spark Streaming 中 灌 入 数据 
(flume kafka ) 


4 ) Spark Streaming 作业 提交 


(1 ) 相关 组 件 


Spark Sreaming 的 作业 提交 包含 的 组 件 和 功能 分 别 
为 : 


。Network Input Tracker : 跟踪 每 一 个 网 络 
received 数 据 ， 并 且 将 其 映射 到 相应 的 Input 
Dstream 上 

。 Job Scheduler : 周期 性 的 访问 Dstream 
Graph 并 生成 Spark Job， 将 其 交 给 Job 
Manager 执 行 

。 Job Manager : 获取 任务 队列 ， 并 执行 Spark 
任务 


(2 ) 具体 流程 


具体 的 作业 提交 流程 如 下 : 


Spark Streaming 


多 用 os 
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要 传 入 的 数据 会 编排 成 block id (元 数据 ) 的 形式 ， 
再 加 上 RDD 的 逻辑 ， 就 生产 了 job scheduler， 通 过 
job manager 形 成 job queue， 以 队列 形式 有 序 执 
行 。 真 正 的 数据 是 以 block 形 式 传 入 worker ,由 
worker 上 的 executor 通 过 元 数据 信息 Block ID 去 
HDFS 上 拉 取 对 应 的 block 数 据 进行 执行 。 


Network Input Tracker 传 入 的 并 不 是 真正 的 数据 ， 
而 是 Block IDs， 相 当 于 获取 的 是 元 数据 ， 数 据 是 通 
过 worker 进 行 接受 的 ， 也 就 是 说 Master 上 不 管 真正 
数据 的 接受 情况 ，Master 上 只 是 能 够 拿 到 数据 block 
的 id， 至 于 这 些 block 做 什么 操作 ， 是 会 放 到 Job 
Manager 去 ， 按 照 顺序 执行 。 


5 ) SparkStreaming 工 作 原 理 


Discretized Stream 是 Spark Streaming 的 基础 抽 
象 ， 代 表 持 续 性 的 数据 流 和 经 过 各 种 Spark 原 语 操 
作 后 的 结果 数据 流 。 在 内 部 实现 上 ，DStream 是 一 


系列 连续 的 RDD 来 表示 。 每 个 RDD 含有 一 段 时 间 
辣 隔 内 的 数据 。 


Spark Streaming input data batches of batches of 
stream Spark input data Spark processed data 
小 
一 Streaming | > Engine | 呈 DC 亡 > 
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【了 | 


了 


简单 来 说 ，SparkStreaming 接 受 实时 的 数据 流 ， 把 
数据 按照 指定 的 时 间 段 切 成 一 片 片 小 的 数据 块 
(SparkStreaming 将 每 个 小 的 数据 块 当 作 RDD 来 处 
理 ) ， 然 后 把 数据 块 传 给 Spark Engine 处 理 ， 最 终 
得 到 一 批 批 的 结 


。 每 一 批 数据 ， 在 Spark 内 核 中 对 应 一 个 RDD 实 
例 

。DStream 可 以 看 作 一 组 RDDs， 是 持续 的 RDD 
序列 


对 于 Streaming 来 说 ， 它 的 单位 是 DStream， 而 对 于 
SparkCore， 它 的 单位 是 RDD。 针 对 Spark 开 发 ， 就 
是 开发 RDD 的 DAG 图 ， 而 针对 SparkStreaming， 融 
是 开发 DStream。 


DStream 代表 连续 的 一 组 RDD， 每 个 RDD 都 包含 特 
定时 间 间 隔 的 数据 。DStream 内 部 的 操作 ， 可 以 直 
接 映 射 到 内 部 RDD 进 行 ， 相 当 于 DStream 是 在 RDD 
上 增加 一 个 时 间 的 维度 得 到 的 。RDD 是 DStream 最 
小 的 一 个 数据 单元 。DStream 中 对 数据 的 操作 也 是 
按照 RDD 为 里 位 来 进行 的 。 
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简单 来 理解 ，SparkStreaming 对 于 流 数据 的 处 理 速 
度 是 秒 级 别 ， 无 法 达到 Storm 的 毫秒 级 别 ， 因 此 也 
可 以 将 Streaming 看 作 是 微 批 处 理 。 
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2.DStream 详 解 


大 家 在 上 文中 频繁 看 到 Dstream 的 核心 概念 ， 下 面 
我 们 对 其 做 一 些 展开 讲解 。 


整体 上 看 ，Spark Streaming 的 处 理 思路 : 将 连续 
的 数据 持久 化 、 离 散 化 ， 然 后 进行 批量 处 。 


Spark Streaming 的 处 理 思路 : 将 连续 的 数据 桂 欠 化、 离散 化 ， 然 后 进行 批量 处 。 也 
实时 数据 流 ea 
一 二 本 上 
DSstream | | | 图 区 Spark Streaming 全 
Batches of X seconds 
四 
一 克 
4 Spark 
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对 上 面 这 句 话 进行 分 析 : 


数据 持久 化 : 接收 到 的 数据 暂 存 ， 方 便 数 据 出 
错 进行 回 滚 

离散 化 : 按时 间 分 片 ， 形 成 处 理 单 元 

分 片 处 理 : 采用 RDD 模 式 将 数据 分 批 处 理 
DStream 相当 于 对 RDD 的 再 次 封装 ， 它 提供 
了 转化 操作 和 输出 操作 两 种 操作 方法 


1 ) DStream 创 建 注意 事 项 


Spark Streaming 原生 文 持 一 些 不 同 的 数据 源 。 一 
些 “ 核 心 数 据 源 已 经 被 打包 到 Spark Streaming 的 


Maven 工件 中 ， 而 其 他 的 一 些 则 可 以 通过 spark- 
streaming-kafka 等 附加 工件 获取 。 每 个 接收 器 都 以 
Spark 执行 器 程序 中 一 个 长 期 运行 的 任务 的 形式 运 
行 ， 因 此 会 占据 分 配给 应 用 的 CPU 核心 。 


此 外 ， 我 们 还 需要 有 可 用 的 CPU 核心 来 处 理 数 
据 。 这 意味 着 如 果 要 运行 多 个 接收 器 ， 就 必须 至 少 
有 和 接收 器 数目 相同 的 核心 数 ， 还 要 加 上 用 来 完成 
计算 所 需要 的 核心 数 。 例 如 ， 如 果 我 们 想 要 在 流 计 
算 应 用 中 运行 10 个 接收 器 ， 那 么 至 少 需要 为 应 用 
分 配 11 个 CPU 核心 。 所 以 如 果 在 本 地 模式 运行 ， 
不 要 使 用 local 或 者 local。 


2 ) DStream 转 换 


(1) TransFormation 算 子 与 输出 


DStream 上 的 原 语 与 RDD 的 类 似 ， 分 为 
Transformations (转换 ) 和 Output Operations ( 输 
出 ) 两 种 ， 此 外 转换 操作 中 还 有 一 些 比较 特殊 的 原 
语 ， 如 : updateStateByKey()、transform() 以 及 各 
种 Window 相关 的 原 语 。 


@ TransFormation 


。Spark 支 持 RDD 进 行 各 种 转换 ， 因 为 Dstream 
是 由 RDD 组 成 的 ,Spark Streaming 提 供 了 
个 可 以 在 DStream 上 使 用 的 转换 集合 ， 这 些 集 
合 和 RDD 上 可 用 的 转换 类 似 ; 

。 转换 应 用 到 Dstream 的 每 个 RDD ; 

。 Spark Streaming 提 供 了 reduce 和 count 这 样 
的 算 子 ， 但 不 会 直接 触发 Dstream 计 算 ; 

。 常 用 算 子 : Map、 flatMap、 join、 
reduceBykKey ; 


GO Output 


。Print : 控制 台 输 出 ; 

。 SaveAsObjectFile、 saveAsTextFile、 
saveAsHadoopFiles : 将 一 批 数据 输出 到 
Hadoop 文 件 系统 中 ， 用 批量 数据 的 开始 时 间 

。forEachRDD : 允许 用 户 对 Stream 的 每 一 批量 
数据 对 应 的 RDD 本 身 做 任意 操作 ; 


DStream = [rdd1, rdd2, ..…, rddn] 
RDD 两 类 算 子 : transformation、action 
DStream 两 类 算 子 : transformation、output 


(2 ) 无 状态 转换 


无 状态 转化 操作 就 是 把 简 里 的 RDD 转化 操作 应 用 
到 每 个 批 次 上 ， 也 就 是 转化 DStream 中 的 每 一 个 
RDD。 部 分 无 状态 转化 操作 列 在 了 下 表 中 。 注 意 ， 
， DStream 转化 操作 (比如 
reduceByKey()) 要 添加 import StreamingContext.， 
才能 在 Scala 中 使 用 。 


用 来 操作 Dstreami[ 
加) 函数 名 称 目的 Scala 示 例 的 用 户 自 定义 函数 订 
Eee 函数 签名 
对 Dstream 中 的 每 个 元 素 应 用 3 
map() 给 定 函数 ， 人 dsmap(x-> x+ 1) 攻 EX> 也 
Dstream 元 素 组 成 的 D: 昌 
flatMapO) 人 2 dsfatvap(x=>xsplitCc5) fiT->iterablefup 
送 代 器 组 成 的 DStre 响 
返回 由 给 定 DStream 中 通过 竹 
人 选 的 元 素 组 成 的 DStream 全 遇 人 
repartition() 。 改变 DStream 的 介 区 数 dsrepartition(10) N7A 


reduceByKkey() 将 每 个 批 次 中 键 相同 的 记录 归 约 ds.reduceByKey((Cx,y)=>x+y) f:T,T->T 
groupByKeyC) 将 每 个 批 次 中 的 记录 根据 键 介 组 dseroupByke 误 遍 ” 徽 鸽 ShowMeA1I 研 究 中 心 
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级 效 名 称 目的 Scala 示 例 “用 来 操作 
DsStream[T] 
的 用 户 自 定 
义 函 数 的 肯 
数 签名 
map ( ) 对 DStrearn ds.map(x :>f : (T) ->JU 
中 的 每 个 元 x+ 1) 
系 应 用 给 定 
汲 数 ， 返 回 
各 元 素 输 


出 的 元 素 组 
成 的 
DStream 
flatMap( ) “对 DStrearm ds.flatMap(xf : 工 -> 
中 的 每 个 元 => x.split (lterable [U] 
素 应 用 给 定 ”) ) 
各 元 素 输 
出 的 迭代 器 
组 成 的 
DsStream 
filter( ) 返回 由 给 定 ds.fiter(x :>f:T-> 
DStream 中 xl=1) Boolean 
通过 筛选 的 
元 素 组 成 的 
DsStream 
repartition( ) 改变 ds.repartitioniNl OA 
DStream 的 ) 
分 区 数 
reduceBykey 将 每 个 批 次 ds.reduceByKey((X -> 工 
) 中 键 相同 的 y) => X + y) 
记录 归 约 
groupByKey( 移 每 个 批 次 ds.groupByKlsy(A 


) 中 的 记录 根 ) 
据 键 分 组 


需要 注意 的 是 ， 尽 管 这 些 函 数 看 起 来 像 作 用 在 整个 
流 上 一 样 ， 但 事实 上 每 个 DStream 在 内 部 是 由 许多 
RDD( 批 次 ) 组 成 ， 且 无 状态 转化 操作 是 分 别 应 用 到 

每 个 RDD 上 的 。 例 如 ，reduceByKey() 会 归 约 每 个 
时 间 区 间 中 的 数据 ， 但 不 会 归 约 不 同 区 间 之 间 的 数 
气 。 


无 状态 转化 操作 也 能 在 多 个 DStream 间 整 合 数据 ， 
不 过 也 是 在 各 个 时 间 区 间 内 。 例 如 ， 键 值 对 
DStream 拥有 和 RDD 一 样 的 与 连接 相关 的 转化 操 
作 ， 也 就 是 cogroup()、join()、leftOuterJoin() 等 。 
我 们 可 以 在 DStream 上 使 用 这 些 操 作 ， 这 样 就 对 每 
个 批 次 分 别 执行 了 对 应 的 RDD 操作 。 


我 们 还 可 以 像 在 常规 的 Spark 中 一 样 使 用 DStream 
的 union() 操作 将 它 和 另 一 个 DStream 的 内 容 合 # 
起 来 ， 也 可 以 使 用 StreamingContext.union() 来 合 


并 多 个 流 。 


(3 ) 有 状态 转换 
@O UpdateStateByKey ( 全 局 统计 量 ) 


UpdateStateByKey 原 语 用 于 记录 历史 记录 ， 有 

时 ， 我 们 需要 在 DStream 中 跨 批 次 维护 状态 (例如 流 
计算 中 累加 wordcount)。 针 对 这 种 情况 ， 
updateStateByKey() 为 我 们 提供 了 对 一 个 状态 变量 
的 访问 ， 用 于 键 值 对 形式 的 DStream。 


给 定 一 个 由 ( 键 ， 事 件 ) 对 构成 的 DStream， 并 传递 
一 个 指定 如 何 根据 新 的 事件 更 新 每 个 键 对 应 状态 的 
表 数 ， 它 可 以 构建 出 一 个 新 的 DStream， 其 内 部 数 
据 为 ( 键 ， 状 态 ) 对 。 


。updateStateByKey() 的 结果 会 是 一 个 新 的 
DStream， 其 内 部 的 RDD 序列 是 由 每 个 时 间 
区 间 对 应 的 ( 键 ， 状 态 ) 对 组 成 的 。 

。updateStateByKey 操作 使 得 我 们 可 以 在 用 新 
言 息 进行 更 新 时 保持 任意 的 状态 。 


为 使 用 这 个 功能 ， 你 需要 做 下 面 两 步 : 


。 定 义 状态 ， 状 态 可 以 是 一 个 任意 的 数据 类 型 。 
。 定义 状态 更 新 函数 ， 用 此 上 函数 前 明 如 何 使 用 之 
前 的 状态 和 来 自 输入 流 的 新 值 对 状态 进行 更 
新 。 使 用 updateStateByKey 需要 对 检查 点 目 

录 进 行 配置 ， 会 使 用 检查 点 来 保存 状态 。 


如 果 要 使 用 updateStateByKey 算 子 ， 就 必须 设置 一 
个 checkpoint 目 录 ， 开 启 checkpoint 机 制 ， 这 样 的 话 
才能 把 每 个 key 对 应 的 state 除 了 在 内 存 中 有 ， 在 磁 
盘 上 也 checkpoint 一 份 。 因 为 要 长 期 保存 一 份 Key 的 
state 的 话 ， 那 么 spark streaming 是 要 求 必 须 用 
checkpoint 的 ， 以 避免 内 存 数据 的 丢失 。 


主要 解决 : 比如 说 在 双 十 一 统计 一 天 销量 和 成 交 金 
额 ， 这 些 计 算 需要 全 量 汇 总 ， 对 数据 进行 楷 加 ， 就 
需要 避免 数据 在 内 存 中 丢失 ， 造 成 不 准确 。 


Oo Window Operations 


Window Operations 有 点 类 似 于 Storm 中 的 
State， 可 以 设置 窗口 的 大 小 和 滑动 窗口 的 间隔 来 动 
态 的 获取 当前 Steaming 的 允许 状态 。 


基于 窗口 的 操作 会 在 一 个 比 StreamingContext 的 批 
次 间隔 更 长 的 时 间 范 围 内 ， 通 过 整合 多 个 批 次 (在 
窗口 内 的 批 次 ) 的 结果 ， 计 算出 整个 窗口 的 结果 。 


简单 来 说 ，Streaming 的 Window Operations 是 
Spark 提 供 的 一 组 窗口 操作 ， 通 过 滑动 窗口 的 技 

术 ， 对 大 规模 数据 的 增 量 更 新 进行 统计 分 析 ， 即 定 
时 进行 一 段 时 间 内 的 数据 处 理 。 


区 time 1 time 2 time 3 time 4 time 5 


Dstream 名 口 口 
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所 有 基于 窗口 的 操作 都 需要 两 个 参数 ， 分 别 为 窗口 
时 长 以 及 滑动 步 长 ， 两 者 都 必须 是 StreamContext 
的 批 次 间隔 的 整数 倍 。 


窗口 时 长 控制 每 次 计算 最 近 的 多 少 个 批 次 的 数据 ， 
其 实 就 是 最 近 的 windowDuration/batchlnterval 个 
批 次 。 如 果 有 一 个 以 10 秒 为 批 次 间隔 的 源 
DStream， 要 创建 一 个 最 近 30 秒 的 时 间 窗 口 ( 即 最 
近 3 个 批 次 )， 就 应 当 把 windowDuration 设 为 30 
秒 。 而 滑动 步 长 的 默认 值 与 批 次 间隔 相等 ， 用 来 控 
制 对 新 的 DStream 进行 计算 的 间隔 。 如 果 源 
DStream 批 次 间隔 为 10 秒 ， 并 且 我 们 只 希望 每 两 
个 批 次 计算 一 次 窗口 结果 ， 就 应 该 把 滑动 步 长 设置 
为 20 秒 。 


。 窗口 总 长 度 (window length ) / Reduce last 
30 seconds of data, every 10 seconds 
。 滑 动 时 间 间 隔 〈slide interval ) val 


windowedWordCounts = 


pairs.reduceByKkeyAndWindow(+， 
Seconds(30), Seconds(10)) 


滑动 窗口 的 长 度 必 须 是 滑动 时 间 间 隔 的 整数 倍 。 
为 RDD 是 DStream 上 最 小 的 数据 单元 不 可 切 分 。 如 
果 不 是 整数 倍 ， 会 出 现 一 个 RDD 被 切 分 的 情况 ， 程 
序 会 报错 。 


3 ) DStream Graph 


DStream Graph 是 一 系列 transformation 操 作 的 抽 
象 ， 例 如 : 


c=ajoin(b),d = c:filter() 时 ， 它 们 的 DAG 远 辑 关 
系 是 ab 一 c, c 一 d, 但 在 Spark Streaming 在 进 
行 物理 记录 时 却 是 反 向 的 ab 二 cc 二 d， 目 的 是 
为 了 追溯 。 


Dstream 


| 


“全 2 有 


四野 履 仁 SNowiej 丁 究 中 心 | 


(1) DStreamGraph 


。 吕 找 代 码 输 出 
。 包 根据 输出 再 往 前 追溯 依赖 关系 


Dstream 之 间 的 转换 所 形成 的 的 依赖 关系 全 部 保存 
在 DStreamGraph 中 ，DStreamGraph 对 于 后 期 生 
成 RDD Graph 至 关 重 要 。 
DStreamGraph 有 点 像 简 洁 版 的 DAG scheduler， 负 
责 根据 某 个 时 间 间 隔 生 成 一 序列 JobSet， 以 及 按照 
依赖 天 系 序列 化 


DSstream Graph oo RDD Graph 局 
last 
9 人 俯 国 
B B | 
一 入 痢 
二 
本 中 
本、 : 尝 
M| | | 
和 
攻 下 ee 则 | 
Spark 一 一 
jobs | CO 要 索 | 微 信 ShowMeAI 研 究 中 心 | 


代码 是 一 直 在 跑 的 ， 每 隔 一 定时 间 就 会 形成 一 个 
RDD。 


(2 ) DStream 与 RDD 对 比 与 理解 


DsStream.map(RDD => RDD.map) 


让 EL 
CD Dstream Graph y 轴 / 空间 维度 明 
ER 就 中 的 模板 DD Graph RDD Graph RDD Graph RDD Grapl 
RDDI 
加 加 划 ] 国 加 B 昼 | 虽 
Dstream Graph 站 本 区 
二 到 s 
M M M M 
站 车、 EN _. 峡 、 二、 
加 内 | 若 M| [| 后 M| [A| [E 剖 四 | 国 和 
_- 古 、 本 
四 | 国 国 | 国 转 人 轩 | 而 
M] [|E] [R | 
park 


Dstream 


3 Sparkjobs 3 Sparkjobs ， 3Ssparkjobs 3Sparkjobs 


油 | 


时 间 维 度 : batchinterval 为 时 间 间 隔 不 断 的 生 
成 Job 实 例 并 在 集群 上 运行 。 

空间 维度 : 代表 RDD 依 赖 关 系 构 成 的 具体 的 业 
务 罗 辑 的 处 理 步 骤 , 用 DStreamGraph 表 示 


随 看 时 间 的 流逝 ， 基 于 Dstream Graph 不 断 的 生成 
RDD Graph 也 就 是 DAG 的 方式 产生 Job， 并 通过 
Jobscheduler 的 线程 池 提 交 给 SparkCluster 不 断 的 
执行 。 


每 个 时 间 间 隔 会 积累 一 定 的 数据 ， 这 些 数 据 可 以 看 
成 由 event 组 成 〈 假设 以 kafka 或 者 Flume 为 

例 ) ， 时 间 间 隔 是 固定 的 ， 在 时 间 间 隔 内 的 数据 就 
是 固定 的 。 也 就 是 RDD 是 由 一 个 时 间 间 隔 内 所 有 数 
据 构 成 。 时 间 维 度 的 不 同 ， 导 致 每 次 处 理 的 数据 量 
及 内 容 不 同 。 


3.Spark Streaming 应 用 代码 


示例 


我 们 先 来 看 一 看 一 个 简单 的 Spark Streaming 程序 
的 样子 。 假 如 我 们 想 要 计算 从 一 个 监听 TCP socket 
的 数据 服务 器 接收 到 的 文本 数据 (text data ) 中 的 
字数 ， 我 们 可 以 按照 如 下 步骤 进行 : 


9 首先 , 我 们 导入 StreamingContext, 这 是 所 有 流 功 
能 的 主要 入 口 点 。 我 们 创建 了 一 个 融 有 2 个 执行 线 
程 和 间歇 时 间 为 1 秒 的 本 地 StreamingContext。 


SlowSoENaI< ecnacESoEeecGoimnE=Dae 


fxrom PYysPark .streaming import StreamingContext 


# 创建 一 个 具有 两 个 工作 线程 (working thread ) 并 且 批 次 间 
SC SEEaERCCnEELETLSC 二 ReEGPountn" 


SSsC = StreamingContext (SCc， 工 ) 


@ 使 用 该 context， 我 们 创建 一 个 代表 从 TCP 源流 
数据 的 DStream， 指 定 主机 名 例如 localhost ) 和 
端口 (例如 9999 ) 。 


# 创建 一 个 将 要 连接 到 hostname:port 的 Dstream ,如 1o 


ines = Ssc.SsSocketTextStream("1LocalLlhost"，9999) 


@ 上 述 lines DStream 表示 将 要 从 数据 服务 器 接收 
到 的 数据 流 。 在 这 个 离散 流 ( DStream ) 中 的 每 一 
条 记录 都 是 一 行文 本 〈text ) 。 接 下 来 ， 我 们 希望 
通过 空格 字符 拆 分 这 些 数 据 ， 把 每 一 行 切 分 为 单 
词 。 


# 将 每 一 行 拆 分 成 单词 


worqds = Lines.flatMap(LIambdqa Line: Line.sSPLit(" 


@ flatMap 是 一 种 一 对 多 的 DStream 操 作 ， 它 会 通 
过 在 源 DStream 中 根据 每 个 记录 生成 多 个 新 纪录 的 
形式 创建 一 个 新 的 DStream。 在 这 种 情况 下 ， 每 一 
行 都 将 被 拆 分 成 多 个 单词 和 代表 单词 DStream 的 单 


词 流 。 下 一 步 ， 我 们 想 要 计算 这 些 单 词 : 


# 计算 每 一 个 batch ( 批 次 ) 中 的 每 一 个 word (单词 ) 
感 5 和 二 证 王 省 全 下 站 区 且 们 古人 六 外 本 下 所有 忆 


WordCounts = Pairs.tedquceByKey (Lambdqa X YXxX+: 


# 在 控制 台 打 印 出 在 这 个 DSstream 中 生成 的 每 个 RDD 的 前 十 个 了 


人 


上 述 单词 DStream 进 行 了 进一步 的 映射 (一 对 一 的 
转换 ) 为 一 个 (word, 1) paris 的 DStream， 这 个 
DStream 然后 被 reduce 来 获得 数据 中 每 个 批 次 的 单 


词 频率 。 最 后 ，wordCounts.print() 将 会 打印 一 些 每 
秒 生成 的 统计 结 


@ 注意 当 这 些 行 被 执行 的 时 候 ，Spark Streaming 
仅仅 设置 了 计算 ， 只 有 在 启动 时 才 会 执行 ， 并 没有 
开始 真正 地 处 理 。 为 了 在 所 有 的 转换 都 已 经 设置 好 
之 后 开始 处 理 ， 我 们 在 最 后 调用 : 


SSeESaisio 全 # _ Statrt the computation 


SSC.awaitTetrmination () 起 Wait for the computatL 


该 部 分 完整 的 代码 可 以 在 Spark Streaming 示例 
NetworkWordCount 中 找到 。 


如 果 你 已 经 下 载 并 且 构建 Spark, 您 可 以 使 用 如 下 
方式 来 运行 该 示例 你 首先 需要 运行 Netcat ( 一 个 
在 大 多 数 类 Unix 系统 中 的 小 工具 ) 作为 我 们 使 用 的 
数据 服务 器 。 


S nc -1LK 9999 


然后 ， 在 另 一 个 不 同 的 终端 ， 你 可 以 通过 执行 如 下 
命令 来 运行 该 示例 : 


$ ./pbin/sparKk-submit exampbles/src/main/pythony/ st 


然后 ， 在 运行 在 netcat 服务 器 上 的 终端 输入 的 任何 
行 (lines ) ， 都 将 被 计算 ， 并 且 每 一 秒 都 显示 在 屏 
幕 上 ， 它 看 起 来 就 像 下 面 这 样 : 


# TERMINAL 1: 

# Runnind Netcat 
S nc =]K 9999 
hel1lLo wor1ld 


# IERMINRAL 2: RUNNING network_wordqcount .Py 


$ ./pbin/spPark-submit examples/src/main/pythony/ st 


Time 有 乞 0 下 4 三 本 0 三 下 4 本 5 人 直 用 下 


(ee 
(one 
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收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1.Spark 机 器 学 习 工 作 闹 


1) Spark mllib 与 ml 


Spark 中 同样 有 用 于 大 数据 机 器 学 习 的 板块 MLIib/ 
ML， 可 以 支持 对 海量 数据 进行 建 模 与 应 用 。 


CD MLbase aims to simplify development and deployment of scalable ML pipelines3 
MLOPt Declaractive layerto MLOpt 殖 


tomate hyperparameter tuning beds 
Spark 机 器 学 习 工作 流 扫 
Simpli elopment 

timizati Production 


2 ) 机 器 学 习 工 作 流 (Pipeline) 


一 个 典型 的 机 器 学 习 过 程 ， 从 数据 收集 开始 ， 要 经 
历 多 个 步骤 ,才能 得 到 需要 的 输出 。 是 一 个 包含 多 


个 步骤 的 流水 线 式 工作 : 


。 源 数据 ETL ( 抽取、 和 转化、 加 载 ) 
。 数据 预 处 理 

。 指标 提取 

。 模型 训练 与 交叉 验证 

。 新 数据 预测 


MLIib 已 足够 简 里 易 用 ， 但 在 一 些 情 况 下 使 用 MLlib 
将 会 让 程序 结构 复杂 ， 难 以 理解 和 实现 。 


。 目标 数据 集结 构 复 杂 需 要 多 次 处 理 。 

。 对 新 数据 进行 预测 的 时 候 ， 需 要 结合 多 个 已 经 
训练 好 的 单个 模型 进行 综合 预测 Spark 1.2 版 
本 之 后 引入 的 ML Pipeline， 可 以 用 于 构建 复 
采 机 器 学 习 工作 流 应 用 。 


以 下 是 几 个 重要 概念 的 解释 : 
(1) DataFrame 


使 用 Spark SQL 中 的 DataFrame 作为 数据 集 ， 可 以 
容纳 各 种 数据 类 型 。 较 之 RDD，DataFrame 包含 
了 schema 信息 ， 更 类 似 传统 数据 库 中 的 二 维 表 


格 。 


它 被 ML Pipeline 用 来 存储 源 数 据 ， 例 如 
DataFrame 中 的 列 可 以 是 存储 的 文本 、 特 征 向 量 、 
真实 标签 和 预测 的 标签 等 。 


(2 ) Transformer( 转 换 器 


是 一 种 可 以 将 一 个 DataFrame 转换 为 另 一 个 
DataFrame 的 算法 。 比 如 ， 一 个 模型 就 是 一 个 


Transformer , 它 可 以 把 一 个 不 包含 预测 标签 的 测试 
数据 集 DataFrame 打上 标签 ， 转 化 成 另 一 个 包含 预 
测 标 签 的 DataFrame。 


技术 上 ，Transformer 实 现 了 一 个 方法 transform() ， 
通过 附加 一 个 或 多 个 列 将 一 个 DataFrame 转换 为 另 
一 个 DataFrame。 


(3 ) Estimator( 估 计 器 /评估 器 


是 学 习 算法 或 在 训练 数据 上 的 训练 方法 的 概念 抽 
象 。 在 Pipeline 里 通常 是 被 用 来 操作 DataFrame 
数据 ， 并 生产 一 个 Transformer。 从 技术 上 讲 ， 
Estimator 实现 了 一 个 方法 fit()， 它 接受 一 个 
DataFrame 并 产生 一 个 Transformer 转 换 器 。 


(4) Parameter 


Parameter 被 用 来 设置 Transformer 或 者 Estimator 
的 参数 。 现 在 ， 所 有 Transformer( 转 换 器 ) 和 
Estimator( 估 计 器 ) 可 共享 用 于 指定 参数 的 公共 API。 
ParamMap 是 一 组 〈 参 数 ， 值 ) 对 。 


(5 ) PipeLine( 工 作 流 / 管 道 ) 


工作 流 将 多 个 工作 流 阶 段 ( Transformer 转 换 器 号 和 


Estimator 估 计 器 ) 连 接 在 一 起 ， 形 成 机 器 学 习 的 工作 
流 ， 并 获得 结果 输出 。 


3 ) 构建 一 个 Pipeline 工 作 流 


Spark 机 器 学 习 工作 流 


fEstimatom) [aenee ] 中 We 车 egressi 


Pipeline. 记 人 


Raw Words Feature 
ftext 


( agel，Sst age3，…)) 
纪 要 索 | 微 信 ShowMeAl 研究 中 心 


Val Pipeline = new Pipeline() .setStadges (Array (St 


@O 首先 需要 定义 Pipeline 中 的 各 个 
PipelineStage( 工 作 流 阶段 )。 


。 包括 Transformer 转 换 器 和 Estimator 评 估 器 。 

。 比 如 指标 提取 和 转换 模型 训练 。 

。 有 了 这 些 处 理 特定 问题 的 Transformer 转 换 器 
和 Estimator 评 估 器 ， 就 可 以 按照 具体 的 处 理 
逻辑 ， 有 序 地 组 织 PipelineStages， 并 创建 一 
个 Pipeline。 


@ 然后 ， 可 以 把 训练 数据 集 作 为 入 参 ,， 并 调用 
Pipelin 实例 的 fit 方法 ， 开 始 以 流 的 方式 来 处 理 源 


训练 数据 。 


。 这 个 调用 会 返回 一 个 PipelineModel 类 实例 ， 
进而 被 用 来 预测 测试 数据 的 标签 


@ 工作 流 的 各 什 帮 情人 机 订 全 去 行 ， 输 入 的 
DataFrame 在 它 通过 每 个 阶段 时 被 转换 。 


。 对 于 Transformer 转 换 器 阶段 ， 在 DataFrame 
上 调用 transform() 方法 。 

对 于 Estimator 估 计 器 阶段 ， 调 用 fit() 方 法 来 生 
成 一 个 转换 器 ( 它 成 为 PipelineMode| 的 一 部 分 
或 拟 合 的 Pipeline)， 并 且 在 DataFrame 上 调用 
该 转换 器 的 transform() 方 法。 


4 ) 构建 Pipeline 示 例 


获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 
运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 


blog.showmeai.tech/python3-compiler 


from PYysPark .ml import Pipeline 


在 革 所 硬 办 S 亿 本 半 攻 本 和 下 本 忆 下 aSEAIERCaIEGn MEIb 七 ICRe 


from PyspPark.mlL .feature import HashingTE，Tokeni 


# Prepare training qdqocuments from a 1List of (id 
二 raining = SPark.createDataFrame ([ 
0 
人 eyeodwe 芭 这 
人 
0 
| 本 se EEC oOD 


蓝本 人 Se 这 二 全 MT 有 让 SNTeE 得 轴 有 相生 CS SS| of 七 世 
七 OKenizec = Tokenizer (1InpPputCol="text"，， outputCol: 
hashingTITE = HashingTITE (1InpPputCol=tokenizer.getoOoutP: 
LI = LogisticRegression (maxItLtetr=10，LregqParam=0.0 


Pipeline = Pipeline(stages=[tokenizer，hashingTIFE 


# 了 it the pipeline to trainind aqocuments . 


moaqel = Pipeline.fEit (training) 


# Prepare test Qqocuments，， which are UnlLabeled (L 
test = SPark.CcreateDataFrame ([ 
人 
(于 
【人 
人 Faoachheehaacepo) 
| 村 昌国 必 | 刘 你 让 区 之 区 本) 


# Make Ptredictions on test Qqocuments andq Print cC 


Prediction = modqel.transftorm(test) 
Selected = Prediction.select ("1id"，" 七 eXt" "Propb 
for row in Selectedq.collect () : 
ia Eecxtc rooa Deealcton = cotVvPe: 1L 
拍 王 世 
" ( 节 d， 区 S) 一 -> Pob= 和 SPredqiction= 知 和 "和 
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2. 基 于 DataFrame 的 Spark 
ML 特征 工程 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


1 ) 特征 工程 


基于 DataFrame 的 
Spark ML 特征 工程 


， 特征 工程 决定 了 模型 的 上 限 ,模型 只 是 去 逼近 这 个 上 限 
。 计算 每 一 个 特征 X 与 结果 丫 的 相关 性 (皮尔 还 、 互 信息 系 数 ) 
。 构建 单 特征 模型 ， 通 过 模型 结果 对 特征 排序 

， 通 过 1 正则 项 选 树 特征 ( 没 选 到 的 不 代表 不 重要 ) 

，。 L2 正 则 方 法 交 习 检验 (确定 哪个 特征 更 重要 ) 

， 训练 能 够 对 特征 打分 的 预选 模型 (RandomForest&LR) | 
， 通过 特征 组 合 后 再 来 迁 择 特 征 (用 户 数据 释 玉 ， 组 合 特征 闽 胰 全 局 和 和 未 性 从 1= ShowMeA1 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


2 ) 二 值 化 


continuousDataFrame = spark- 


基于 DataFrame 的 的 
Spark ML 特征 工程 binarizer 际 下 feature'"，、 


bjinarized_feature 


binarizedDataFrame = binarizenr . (continuousDataFrame) 


核心 代码 & 运行 结果 


ShowMeAl 研究 中 心 | 
个 httpWwww.showmeaitechy 


continuousDataFrame = SPark.createDataFrame([(0， 
binarizexr = Binarizer (thresholLldq=5.1， inputCol="E 


binarizedqDataFrame = binarizer.transform(continu 


3 ) 定 边界 离散 化 


("inf")] 


Bucketfaer output with 4 buckecs 


基于 DataFrame 的 
Spark ML 特征 工程 


dataFrame = spark- 


核心 代码 & 运行 结果 


中 http:Wwww.showmeaitechy 


ES 三 证 ( 
@a aa 本 三 展 ( 全 总 吕 光 殉 2 厅 人 OURS 克 (人 有史 ( 册 0 本 太 人 .27)7 
QataFranme = SPark.createDataFrame (Qatay ["featu 


bucketizer = Bucketizer (SP1Lits=spP1Lits， inputCol= 


# 按照 给 定 的 边界 进行 分 桶 


DucketedData = bucketizer.ttransfornm(dqataFranme) 


| | 
本 


基于 DataFrame 的 
Spark ML 特征 工程 


(data，["id"，"hour'"]) 


核心 代码 & 运行 结果 
result = discretizer-。 (df) | 全 横 索 | 微 售 ShowwMeAl 研 究 中 心 | 


5 httpWwww.showmeaitechy 


Q@aeaE 三 [EURSRAONIRRLIRELEORR OO 5.0) 
加 三 三 aeKRecreaearaeneanelteoaeal io bur'" ]) 


QQ = OPeDaeecn() 
分 成 3 个 桶 进行 离散 化 


Qiscretizer = OuantileDiscretizer (numBuckets=3， 


iesmE 本 三 本 人 人 和 攻 生 让 下 有 生生 本 有 玫 攻 KG ss 让 COmikeoy) 


5 ) 连续 值 幅 度 缩 放 


基于 DataFrame 的 
Spark ML 特征 工程 


核心 代码 & 运行 结果 


中 httpWwww.showmeaitechy 


dataFrame 
Vectors ([ 
Vectors ([ 
，Vectors ([ 


spark 


轴 


Scaler ( 


scalerModel = scaler， 
# 缩放 幅度 二 汪汪 生生 
scaledData = ScalerModel.t 


(dataFrame) 


) 


1 
二 


0 
1[2.0,1.0,-4.0]| 【0.5,0-1,-0.5]| 
4 议 了 这 


(da 
搜索 | 微 信 ShowMeAl 研 究 中 心 | 


QataFrame = SPark.createDataFrame ([ 
(ONWMecEeeEsaenmss OO 三 SO 内 三 汰 下 

全 晤 ONVeceoesGemsEs22 有 OILLEIOR 人 的 川 队 证 ) 球 
(VEecEoesRaenseEE OOROR SO 内 让 ) 

| 大 二 EeeDDS SR 轴 

Scaler = MaxAbsScaler (InputColL="features"，，， outpu 


# 计算 最 大 绝对 值 用 于 缩放 


ScalerModel = 


# 缩放 幅度 到 [-1， 


ScaledqData = 


6 ) 标准 化 


Scaler.fit (aqataEFrame) 


1] 之 间 


dataFrame 


基于 DataFrame 的 
Spark ML 特征 工程 


Scalen 


本 


scalerModel = scaler. 


核心 代码 & 运行 结果 # 标准 化 


ScaledData 


中 httpWwww.showmeaitechy 


spark.read 


5 


(dataFrame) 


scalerModel.transform(dat 


3Eraney 一 一 一 
搜索 | 微 信 ShowMeAl 研 究 中 心 | 


ScalerModqe1l .transform(aqataFrame) 


QataFrame = SPark.read.format ("1Lipsvm") .LIoad("daa 


Scaler = StandqardqScaler (InPputColL="features"，，out1 


# 计算 均值 方差 等 参数 
SC 


ScalerModel = alLer.ftit (aataFrame) 


# 标准 化 


ScaledqData = ScalerModqe1l .transftornm(aqataFrame) 


7 ) 添加 多 项 陈 特 征 


基于 DataFrame 的 
Spark ML 特征 工程 


核心 代码 & 运行 结果 


中 httpwww.showmeaitechy 


Qqf = SPark.createDataFrame([(Vectors .qdqensel([2.0， 
PolLyExpansion = PoLynomialExpansion (qdqegree3， LILn: 


ColyDEE DCLYRXxPanslcnercansTocnkoT) 


8 ) 关 别 型 独 热身 量 编码 


基于 DataFrame 的 
Spark ML 特征 工程 


]，[ category ]) 
stringIndexenr 


model = stringIndexer ,fit(df 
indexed = model 


核心 代码 & 运行 结果 encoder 


4 
encoded = encoder.tra 


中 http:Wwww.showmeaitechy 


Qqf = SPark.createDataFrame([ (0，"a")， (1，"bp")， (人 
StLzing9Indqexe = StringIndqexez (InpPputCol="category 
modqel = Strind9dIndqexer .fit(qf) 


Inadaexedq = moqe1l.transform(af) 


encodqer = OneHotEncoder (InPutColL="categoryInadexn" 


encodqed = encodqer .transform(indqexed) 


9 ) 文本 型 特征 抽取 


基于 DataFrame 的 
Spark ML 特征 工程 


features”， 
model = cvV. (df) 


result = model. 310 11a，b，<] |(3v[0v1,2]，[1 


:二 “一 11 10a， by，b，c，a]|(3,[0,1,2]，,[2 
核心 代码 & 运行 结果 


个 模 索 | 微 信 ShowMeAi 研 究 中 心 | 


中 httpWwwwshowmeaitechy 


加 下 


SearkecereaeDaEaErame 人 (CO 二 DC ES ji 七 ( 


G@ CounkeVecEeenrmnzernpbueccel= WordsOuebutCol: 
moagesli CE GH) 


Fesult = modqel .transform(af) 


10 ) 文本 型 特征 抽取 


基于 DataFrame 的 
Spark ML 特征 工程 


核心 代码 & 运行 结果 


中 httpWwww.showmeaitechy 


sentenceData = spa 
证 

(6.6，% (20,[0y5，9v17] 

(20121749413， 


1，["1abel"， 


tokenizer 
wordsData tokenizer. 
hashingTF 


featurizedData = h 
idf 


d 出 idf， 
rescaledData = idfModel， 


SentenceData = SPark.createDataFrame ([ 

《大 疯 二 辣 天 国王 仙人 放 本 下 避 攻 机 区 二 攻 本 王 乓 ) 

(0.0，"I Wish Uava could use case Classes") ， 
(1.0， "Logistic regression modqels are neat1") 


ESeSRE 


"Sentence" ] ) 


七 OKenizer = Tokenizer (InpPputColL="sentence"， outpu 
WordsData = 七 OKenizer.transform(sentenceDatal) 
hashindgTITE = HashingTE (inputCol="wordqas"，outpPutCo 
featurizedData = hashingTE .transform(wordsData) 
idqf = IDE (InputColL="rawEFeatures"，outpPutCoL="fea 
IdqfMode1l 于 加 有 二 人 ii 人 CEEaEDE 2 全 四 a 世 sh 

rescaledqData = 1IdqfModel.transform(featuzizedData 


3. 参 考 资料 


。 数据 科学 工具 速 查 | Spark 使 用 指南 (RDD 版 ) 


http://www.showmeai.tech/article-detail/106 
数据 科学 工具 速 查 | Spark 使 用 指南 (SQL 版) 
http:/www.showmeai.tech/article-detail/107 
黄 美 灵 ，Spark MLIib 机 器 学 习 : 算法 、 源 码 及 
实战 详解 ， 电 子 工业 出 版 社 ，2016 

使 用 ML Pipeline 构建 机 器 学 习 工 作 流 https:/ 
www.ibm.com/developerworks/cm/ 


opensource/os-cn-spark-practiceS/index.html 
Spark 官 方 文档 : 机 器 学 习 库 (MLIib) 指南 ， 
http:Mspark.apachecn.org/docs/cn/2.2.0/m|- 


guide.html 


【大 效 据 反 术 与 处 理 】 推 荐 阅 


污 


图 解 大 数据 | 大 数据 生态 与 应 用 导论 
图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

图 解 大 数据 | Hadoop 系 统 拱 建 与 环境 配置 @ 实 
操 案 例 

图 解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 


。 图解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图 解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数 据 库 

查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 

多 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 

@Spark 操 作 

。 图 解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 

分 析 @Spark 操 作 

。 图 解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 

@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交易 数据 

@ 综 合 案例 

。 图 解 大 数据 | 使 用 Spark 分 析 挖 掘 音乐 专辑 数据 

@ 综 合 案例 

。 图 解 大 数据 | Spark Streaming @ 流 式 数 据 处 

理 

。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 

学 习 

。 图解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
司 

。 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 

析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 上 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编 程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 

。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 

。 深度 学 习 教 程 : 吴 恩 达 专 项 课程 . 全 套 笔记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 . 课 
程 市 学 与 全 套 笔 记 解读 


Sh@w Me Al 


图 解 大 数据 | Spark 机 器 学 习 
(下 ) 一 建 模 与 超 参 调 伏 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123366122 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/84 
本 文 地 址 : http:W/www.showmeai.techyarticle- 
detail/181 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


收藏 ShowMeAl 查 看 更 多 精彩 内 容 


1. 分 闪 、 回 归 与 聚 拓 模型 


1 ) 分 关 算 法 概述 


分 类 是 一 种 重要 的 机 器 学 习 和 数据 挖掘 技术 。 分 类 
的 目的 是 根据 数据 集 的 特点 构造 一 个 分 类 浮 数 或 分 
类 模型 ( 也 常常 称 作 分 类 器 )， 该 模型 能 把 未 知 类 别 
的 样本 映射 到 给 定 类 别 中 的 一 种 技术 。 


生 必 全 二 


根据 数据 集 的 特点 构造 一 个 分 类 函数 或 分 类 模型 外 
(也 常常 称 作 分 类 器 )， 该 模型 能 把 未 知 类 别 的 样 扣 | 
本 映射 到 给 定 类 别 中 。 引 


分 类 算法 | 监督 学 习 算法 | 做 “选择 题 " 


(搜索 | 微 信 ShowMeAl 研 究 中 心 ] 


分 类 的 目的 就 是 分 析 输 入 数据 ， 通 过 在 训练 集中 的 
效 据 表现 出 来 的 特性 ， 为 每 一 个 类 找到 一 种 准确 的 
描述 或 者 模型 ， 采 用 该 种 方法 (模型 ) 将 隐 含 浮 数 
表示 出 来 。 


构造 分 类 模型 的 过 程 一 般 分 为 训练 和 测试 两 个 阶 


。 在 构造 模型 之 前 ， 将 数据 集 随机 地 分 为 训练 数 
据 集 和 测试 数据 集 。 


。 先 使 用 训练 数据 集 来 构造 分 类 模型 ， 然 后 使 用 
测试 数据 集 来 评估 模型 的 分 类 准确 率 。 

。 如果 认 为 模型 的 准确 率 可 以 接受 ， 融 可 以 用 该 
模型 对 其 它 数 据 元 组 进 分 类 。 


一 般 来 说 ， 测 试 阶段 的 代价 远 低 于 训练 阶段 。 
(1 ) 逻辑 回归 


逻辑 回归 (logistic regression ) 是 统计 学 习 中 的 经 
典 分 类 方法 ， 属 于 对 数 线性 模型 。logistic 回 归 的 因 


变量 可 以 是 二 分 类 的 ， 也 可 以 是 多 分 类 的 。 


逻辑 斯 蒂 回 归 ( Logistic Regression ) 


分 类 ,回归 与 聚 类 模型 


逻辑 斯 蒂 回 归 


中 http:Wwww.showmeaitechy 


获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 
运行 代码 段 与 学 习 一 在 线 编 程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


下 GDXS 的 amRRClSSEREEGaice miPEOt 晤 TOOgab 七 ICRe 


em 有 DSSBbaskeseIDOEEEESDaikSes sanseonm 


SPDark = SparkSession \ 


.Duildqer \ 
.apPName ("LodgisticRedgdressionSummary"n) 下 
.getOrCreate () 

# 加 载 数据 

人 人 亲 三 汪 区 克 训 站 大 下 六 全 三 间作 三 aan("dat 


LI = LogisticRegression (maxILter=10，LredgdParam=0.3 


# 拟 合 模型 
汪汪 本 全 个 主 生 有 二 下 二 


# 模型 信息 总 结 与 输出 


十 rainingSummary = LIrModqel1.summary 


# 输出 每 一 轮 的 损失 浮 数 值 

obJjectiveHistory = 七 ainind9qSummary.objectiveHist 
人 

for objective in objectiveHistory : 


Print (objective) 


# ROC 曲 线 
EeeSwmmasseseoc 有 Showg 


Print("areaUndqerROC: " + Str(trainingdSummary .ae 


Soakessteofo 二 


(2 ) 支持 向 量 机 SVM 分 类 器 


支持 向 量 机 SVM 是 一 种 二 分 类 模型 。 它 的 基本 模型 
是 定义 在 特征 空间 上 的 间隔 最 大 的 线性 分 类 器 。 支 
持 向 量 机 学 习 方 法 包含 3 种 模型 : 线性 可 分 支持 向 量 
机 、 线 性 广 持 回 量 机 及 非 线性 文 持 向 量 机 。 


。 当 训练 数据 线性 可 分 时 ， 通 过 硬 间 陋 最 大 化 ， 
学 习 一 个 线性 的 分 类 器 ， 即 线性 可 分 支持 向 量 
机 ; 

。 当 训练 数据 近似 线性 可 分 时 ， 通 过 软 间 隔 最 大 
化 ， 也 学 习 一 个 线性 的 分 类 器 ， 即 线性 支持 向 
量 机 ; 

。 当 训练 数据 线性 不 可 分 时 ， 通 过 使 用 核 技 巧 有 太 
软 间隔 最 大 化 ， 学 习 非 线性 支持 向 量 机 。 


线性 支持 向 量 机 支持 L1 和 L2 的 正则 化 变型 。 


支持 向 量 机 (Support Vector Machine, SVM) 


后 划 @ 马 下 


分 类 ,回归 与 聚 类 模型 


外 胆 oww 


支 桂 向 量 机 svM 分 类 器 国 


| Ce 过 | 向 舍 ShowMeAl 研 究 中 心 | 


5 httpWww' 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


GO 本 站 Sa CSEEECaSIETTCOmEEWOHEEIEHhRESVC 


# Load 上 raining data 


EPEalnaunogs saeKeeeaaEocna aaDswnmn Loan ("Qat 
LSVC = LinearSVC (maxIter=10，LregqParam=0.1l1) 


Etnemoadel 


LSsVvcMoaele sec EnaLOano) 


# Pint the coefficients andq intercept for Linea 
DECcosRTeTenESO DERSEEOSVCMecaelecoeEfticie 


Eramnahnerecece EsteeSeMoasi anEeeeept) ) 


(3 ) 决策 树 分 类 器 


决策 树 〈decision tree ) 是 一 种 基本 的 分 类 与 回归 
方法 ， 这 里 主要 介绍 用 于 分 类 的 决策 树 。 决 策 树 模 
式 呈 树 形 结构 ， 其 中 每 个 内 部 节点 表示 一 个 属性 上 
的 测试 ， 每 个 分 支 代 表 一 个 测试 输出 ， 每 个 叶 节点 
代表 一 种 类 别 。 


学 习 时 利用 训练 数据 ， 根 据 损 失 浮 数 最 小 化 的 原则 
建立 决策 树 模型 ; 预测 时 ， 对 新 的 数据 ， 利 用 决策 


树 模 型 进行 分 类 。 


决策 树 分 类 器 ( Decision Tree Classifier ) 


分 类 ,回归 与 聚 类 模型 


决策 树 分 类 器 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


from PysPark .ml Import Pipeline 


EREVSEaKURCTLSSSETECSECOnEEEOTE 站 全 CionTIEY 


fcrom PYySsPark .ml .feature import StringIndexer， Ve 


miDSbaisemleexauatcnecn 本 meeteeaSSsC1as 


# ILoaaQ the aqata storeQq in LIBSVM format as|a Dat 


dqata = Spark.readq.format ("1ibsvm") .LIoadq("dqata/ml 


# Indqex Labels，adqdqing metadqata to the abel col: 
# 了 it on whole aataset to includqe al1l 1Labels in 

abelLIndexeLr = StringIndqexezr (InpPutColL="1Label1"，，o: 
# _ AutomaticalLy idqentify catedgqorical features， a 


# We specify maxCatedgdories So features With > 4 


ES 起 关 全 工人 QQ 天 全 下 EX 


VectorInadexer (InPutColL="features"，，outputCol: 


帮 革 SITEtNeaatcaamnoEcrannang anmaEescessrs (30 
(七 rainingDatay testData) = qata.randomSplit ([0.7 


TanEauDEScCSsTIOnTEEAESLmOGS] 


Qt = DecisionTreeClassiftiecr(1LabelCcol="inadexedqLab 


# Chain indqexers andq tree in a Pipeline 


Pipeline = Pipeline(stages=[1abelIndexeLr， featu 


# Train modqae1l1l. This also runs the inadaexers . 


modqel = Pipeline.fit (trainingData) 


# Make Predictions . 


Predictions = modqel.transform (testDatal) 


# _ Select example rows to qisplLay. 


Predqictions .select("Predqiction"，"indqexedqLabe1L"， 


# Select (Predqiction， true 1Label) andq compute 七 e 

evValuator = MulticlassClassifticationEvaluator ( 
abelLlCcol="indqexedqLabel"，PpredictionCcolF"Ppred 

accuracy = evValuator.evaluate (Predqictions) 


EUacw| ) 
七 eeModel = moadqel.stages [2] 


# _ Summary on1ly 


Pint (上 reeModel) 


2 ) 回归 算法 概述 


回归 也 是 一 种 重要 的 机 器 学 习 和 数据 挖掘 技术 。 回 
归 的 目的 是 根据 数据 集 的 特点 构造 一 个 映射 男 数 或 
模型 ， 该 模型 能 根据 未 知 样本 的 输入 得 到 连续 值 的 
输出 。 


和 -| 


回归 的 目的 是 根据 数据 集 的 特点 构造 一 个 映射 函 晤 
数 或 模型 ， 该 模型 能 根据 未 知 样本 的 输入 得 到 连 司 
续 值 的 输出 。 引 
回归 | 监督 学 习 算法 | 做 “填空 题 " 


人 楼 索 | 微 信 ShowMeAl 研究 中 心 | 


(1) 线性 回归 


线性 回归 是 利用 数理 统计 中 回归 分 析 ， 来 确定 两 种 
或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 的 一 种 统计 
分 析 方 法 ， 运 用 十 分 广泛 。 其 表达 形式 为 y = WwWX+ 
ey = Wx+ey=Wx+e ，eee 为 误差 服从 均值 为 00 
0 的 正 态 分 布 。 


2 分 析 中 ， 只 包括 一 个 自 变量 和 一 个 因 
, 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ， 
这 种 向 归 ; 分 析 称 为 一 元 线性 回归 分 析 。 


。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变 
量 ， 且 因 变 量 和 上 自 变 量 之 间 是 线性 关系 ， 则 称 
为 多 元 线性 回归 分 析 。 


ja 

线性 回归 ( Linear Regression ) 理 

分 类 、 回 归 与 聚 关 模型 区 SR 
一 元 线性 回归 二 元 线性 回归 

| 查 索 | 微 信 ShowMeAl 研 究 中 心 | 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ 人 /ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 


blog.showmeai.tech/python3-compiler 


from PYySsPark .ml .regression import LinearRegressi 


# Load 七 ainind qdqata 


二 rainindg = Spark.readq.format ("1Lipbpsvm") 


.LIoadl("dqata/mlLllLipbp/sample_ linear_regression qd 


LI = LinearRedgdression (maxIter=10，LregqParamF0.3，， 


# Re Ene moasl 
二 Moaele= 上 上 CELLI(EEannO) 


# Pint the coefficients andq intercept for Linea 
monteeeceCoe TeTENES 二 SS 生 二 SET MeoaslcecesEficie 


PEiInt("Intercept : 节 5S" 区 StE (LIrModel.intercept) ) 


# Summarize the moqel over the training set anqd | 


本 rainingSummary = LIrModel1.summary 
ranheraEncons LEaTnnoeannaey ,七 ota 
Re 本 SCERER 有 SEO SO SEE SUmma 
本 ainingSummary.residuals.show() 

FInot RN sansnnaryrcorMeasanSsaouar， 


TREE inawnieiSirmm ay 


(2 ) 决策 树 回 归 


决策 树 模型 既 可 以 求解 分 类 问题 ( 对 应 的 就 是 
classification tree ) ， 也 即 对 应 的 目标 值 是 类 别 型 
数据 ， 也 可 以 应 用 于 回归 预测 问题 的 求解 
(regression tree ) ， 其 输出 值 则 可 以 是 连续 的 实 
数值 。 


根据 从 业 年 限 和 表现 ， 预 估 棒 球 运动 员 的 工资 。 如 
， 有 1987 个 数据 样本 ， 包 含 322 个 棒球 运动 员 。 
红 黄 表示 高 收入 ， 蓝 绿 表 示 低 收入 。 横 坐标 是 年 
限 ， 纵 坐标 是 表现 。 


| 

决策 树 回 归 ( Decision Tree Regressor ) 吗 
二 四 
二 am 襄 


回归 树 青 后 的 含义 : 对 空间 划分 ,一 
整个 平面 被 划分 成 3 部 分 。 

RI= 低 1Years<4.5} 一 | 
R2= 多 |Years> 4.5, Hits < 117.8) 
R3= 公 |Years>45, Hits> 117.5} 


msdn7s 
oo 74 


CD 搜索 | 微 信 ShowMeAl 研究 中 心 


分 类 ,回归 与 聚 类 模型 


决策 树 回归 


中 httpwww.showmeaitechy 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


from PYysPark .ml Import Pipeline 


from PYySsPark .ml .regression import DecisionTreeRe 


from Pyspark.mlL .feature import VectorIndeXxeL 
from Pyspark.mlL.evaluation import RegressionEvVal: 


上 ii 攻 站 光 S 亿 本 基本 S 可 可 天光 记忆 天 攻 基 坊 asSSSisaonm 


SDark = SParkSessionN 
.DuildqerA\ 
.apPName ("DecisionTreeRegdressionExamp1le") 


.GetOrCreate () 


# 加 载 数据 


dqata = Spark.read.format ("1ibsvm") .LIoadq("dqata/ml. 


# _ AutomaticalLy idqentify categdorical features，，a 
# We specify maxCatedgdories So features with > 4 


featUrmeInas 莽 ET 三 


VectorIndexer (InPutColL="features"，，outputCol: 


站 SIDEOS 世 Sa 了 蕊 所 重臣 和 5 全 让 3 SSErs (30: 
( 臣 ainingDatay testData) = qata.randomSplit ([0.7 


TITEanaDEscEsOnTEESESTmOOESL 


qt = DecisionTreeRedressor (featuresColL="inaqaexedF' 


# Chain indqexer and tree in aa Pipeline 


Pipeline = Pipeline(stages=[featureIndqexerl 上 dt]) 


# IFrain mode1l.。 This also runs the inaexezh 


moaqel = Pipeline.fit (trainingData) 


# Make Predictions . 


Predictions = modqel.transftorm (testDatal) 


# _ Select example rows to qisplLay. 


Predqictions .select("Predqiction'"，"1Label1"， 


# Select (Predqiction，， true 1Label) andq compute 七 e 


eValuator = RedressionEvaluator ( 


LabelColL="1abelLl"，predqictionCcolL="Ppredqictionn" 


rmse = eValuator .evaluate (Predqictions ) 


PEint ("Root Mean Sduared ELFFEOF (RMSE) on 七 est aa 


十 eeModel = mode1.stages [1] 
# Summary only 


Pint (上 reeModel) 


Spacesteoc 人 全 


3 ) 无 监督 学 习 概 述 


利用 无 标签 的 数据 学 习 数 据 的 分 布 或 数据 与 数据 之 
国 的 天 系 被 称 为 无 监督 学 习 。 


。 有 监督 演习 和 无 监督 学习 的 最 大 区 别 在 于 数据 
是 否 有 标签 


。 无 监督 学 习 最 常 应 用 的 场景 是 聚 类 (clustering) 
和 降 维 (Dimension Reduction) 


JE 

加 有 有 
hs nr 吉 
/ ee@eAN\ -| 


舟 
e 咯 
分 类 .回归 与 聚 类 模型 SN e@/ Er 人 
“| 6 本 器 
f @ 1 砚 
8 e/ 二 2 “ 


和 这 | 向 信 ShowMeAl 研究 中 心 | 


(1 ) 聚 类 算法 


聚 类 (Clustering ) 是 机 器 学 习 中 一 类 重要 的 方 
法 。 其 主要 思想 使 用 样本 的 不 同 特征 属性 ， 根 据 某 
一 给 定 的 相似 度 度量 方式 (如 欧式 距离 ) 找到 相似 
的 样本 ， 并 根据 距离 将 样本 划分 成 不 同 的 组 。 聚 类 
属于 典型 的 无 监督 学 习 (Unsupervised Learning ) 
方法 。 


与 监督 学 习 ( 如 分 类 器 ) 相 比 ， 无 监督 学 习 的 训 红 
集 没有 人 为 标注 的 结果 。 在 非 监督 式 学 习 中 ， 数 据 
并 不 被 特别 标识 ， 学 习 模型 是 为 了 推断 出 数据 的 一 
些 内 在 结构 。 


Spark 的 MLlib 库 提 供 了 许多 可 用 的 聚 类 方法 的 实 
现 ， 如 K-Means、 高 斯 混合 模型 、Power 


lteration Clustering (PIC ) 、 隐 狄 利克 雷 分 布 
(CLDA ) 以 及 K-Means 方法 的 变种 二 分 K- 
Means (Bisecting K-Means ) 和 流 式 K- 
Means (Streaming K-Means ) 等 。 


(2 ) K-Means 聚 类 


K-Means 是 一 个 返 代 求解 的 聚 类 算法 ， 其 属于 划分 
CPartitioning ) 型 的 聚 类 方法 ， 即 首先 创建 K K K 
个 划分 ， 然 后 迭代 地 将 样本 从 一 个 划分 转移 到 另 一 
个 划分 来 改善 最 终 聚 类 的 质量 ，K-Means 的 过 程 大 
致 如 下 : 


。 1 .根据 给 定 的 k 值 ， 选 取 K K K 个 样本 点 作为 
初始 划分 中 心 ; 

。2. 计 算 所 有 样本 点 到 每 一 个 划分 中 心 的 距离 ， 
并 将 所 有 样本 点 划分 到 距离 最 近 的 划分 中 心 ; 

。 3. 计 算 每 个 划分 中 样本 点 的 平均 值 ， 将 其 作为 
新 的 中 心 ; 

。 循环 进行 2 sim32\sim 32sim3 步 直 至 达 
到 最 大 友 代 次 数 ， 或 划分 中 心 的 变化 小 于 某 一 
预定 义 赋 值 


K-Means 聚 类 ( K-Means Clustering ) 


emation3 


可 局 是 色 重 


分 类 ,回归 与 聚 类 模型 


( 宇 


1 


K-Means 聚 类 


wo 研究 中 心 


中 http:Wwwwshowmeaitechy 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


SDark = SparkSessionnN 
.DuildqernA\ 
.apPName ("KMeansExample")AN 
.GetOrCreate () 


Qqataset = SPark.read.format ("1ipsvm") .LIoadl("dqata 


# 训练 K-means 聚 类 模型 
kmeans = KMeans () .SetK(2) .setSeeda (1IL) 


modqel = kmeans .fit(dqataset) 


# 预测 ( 即 分 配 聚 类 中 心 ) 


Predictions = modqel.transform(dqataset) 


# 根据 Silhouette 得 分 评估 (pyspark2 .2 里 新 加 ) 
evValuator = ClLusteringEvaluator () 
Si1ilhouette = evValuator.evaluate (Predqictions) 


PEint("Silhouette with sduared euclidean qistanc 


# 输出 预测 结果 


PEInt("Preadqicted Center: ") 


GT 本 Eee EdekaOnSRIDY BEEOGOREctoxeneaal 呈 EDPol1lec: 


仿生 于 站 下 谍 让 站 逢 下 全 下 下 人 


# 聚 类 中 心 

Centers = modqel.clusterCenters () 
TGSEG 划 Ce 和 攻 SS 瑟 证) 

for Center in Centers : 


Pint (centeL) 


Saoaskssieoer 人 hy 


(3 ) 降 维 与 PCA 


主 成 分 分 析 (PCA ) 是 一 种 对 数据 进行 旋转 变换 的 
统计 学 方法 ， 其 本 质 是 在 线性 空间 中 进行 一 个 基 变 
换 ， 使 得 变换 后 的 数据 投影 在 一 组 新 的 “坐标 轴 " 上 
的 方差 最 大 化 ， 了 随后， 裁剪 掉 变 换 后 方差 很 小 的 " 坐 
标 轴 ”， 剩 下 的 新 “坐标 轴 "? 即 被 称 为 主 成 分 
(CPrincipal Component ) ， 它 们 可 以 在 一 个 较 低 维 


度 的 子 空 间 中 尽 可 能 地 表示 原 有 数据 的 性 质 。 


主 成 分 分 析 被 广泛 应 用 在 各 种 统计 学 、 机 器 学 习 问 
题 中 ， 是 最 音 见 的 降 维 方法 之 一 。 


IE 
辐 主 成 介 分 析 ( Principal ComponentAnalysis, PCA ) 加 
唱 


original data space 


component space 区 
十 一 号 芝 生 | 
二 寺 一 | 
下 ; 油 呆 总 三 ] 
号 下 泛 时 时 二 是 苗 吾 这 加 旦 于 | 
-已 上 + 
Cd 
二 


分 类 ,回归 与 聚 类 模型 


降 维 与 PCA 


el 
(搜索 | 微 信 ShowMeAl 研 究 中 心 


中 http/wwwshowmeaitechy 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


SDark = SparkSessionN 
.DuildqernA 
.apPName ("PCAEXample")A\ 
.getOrCreate () 


# 构建 一 份 fake aqata 

GaeaEe= 训 IWMS<Eersesearsenal IUDLS 7 .0)]) 
Weeeees 更 aemssel 世 二 OP OUR 二 OP 4 5.0j 
eeeonrsesasnmsslGs0O OO OO 6RAO 7.0] 


Qt = SPark.createDataFrame (Qaata， ["features"]) 


# PCR 降 维 
Pca = PCA(K=3， inputColL="features"，outpPutColL="P 
modqelLl = Pca.fit(qf) 


resSsult = modqel.transform(dqt) .select ("PcaFeatures 


zeSult .show (runcate=EFalse) 


Sansksslwocig) 


2. 超 参 调 优 : 效 据 切 分 与 网 格 
搜 款 


1 ) 机 器 学 习 流 程 与 超 参数 调 优 
在 机 器 学 习 中 ， 模 型 选择 是 非常 重要 的 任务 。 


。 使 用 数据 找到 解决 具体 问题 的 最 佳 模型 和 参 
数 ， 这 个 过 程 也 叫做 调试 (Tuning ) 

。 调试 可 以 在 独立 的 估计 器 中 完成 (如 逻辑 回 
归 ) ， 也 可 以 在 工作 流 (包含 多 样 算法 、 特 征 
工程 等 ) 中 完成 

。 用 户 应 该 一 次 性 调 优 整 个 工作 流 ， 而 不 是 独立 


地 调整 PipeLine 中 的 每 个 组 成 部 分 


[| 
机 器 学 习 流 程 与 超 参数 调 优 叫 
弄 
超 参 调 优 攻 
六 


data 


所 | 微 信 ShowMeAI 研 究 中 心 中 


httpywwwshowmeaitechv 


2 ) 交叉 验证 和 训练 验证 切 分 


MLlib 支 持 交 叉 验 证 Cross Validator 和 训练 验证 分 
割 Train Validation Split 两 个 模型 选择 工具 。 使 用 
这 些 工 具 要 求 包 含 : 


。 估计 器 : 待 调试 的 算法 或 管线 。 

。 一 系列 参数 表 (ParamMaps ) : 可 选 参数 ， 也 
叫做 “参数 网 格 " 搜 索 空 间 。 

。 评 估 器 : 评估 模型 拟 合 程度 的 准则 或 方法 。 


a 
交叉 验证 和 训练 验证 切 分 
Dataset MUib 支 持 交 叉 验 证 Cross Validator 和 训练 验 配 
超 参 调 优 二 区 一 证 分 虽 Train Yalidation splt 两 个 模型 笃 工 恰 
] [| 
模型 远 择 工具 工作 原理 知 下 : 汤 
Cross Validation | 区 了 
， 将 输入 雪 据 分 为 和 测试 数据 
， 对 干 每 个 (训练 ,测试 )， 亿 历 一 组 paramMaps 
Data Permitng: _ ， 用 每 一 个 ParamMap 参 数 来 鹤 合 估计 器 ， 得 型 jl 练 后 
Tani Vaaaian | TS | 。 的 模型 ,再 使 用 评估 器 来 评估 模型 表现 
全 和 和 本 人 全 和 区 航 测 oa 研究 中 心 
中 http/www.showmeaitechy 


交叉 验证 CrossValidato 将 数据 集 切 分 成 k 折 肚 数 据 


集合 ， 并 被 分 别 用 于 训练 和 测试 。 例 如 : 


。k = 3 k=3 k=3 时 ，CrossValidator 会 生成 333 
个 《训练 效 据 , 测试 数据 ) 对 ， 每 一 个 数据 对 
的 训练 数据 占 271 3 2/3 2/3， 测 试 数 据 占 1/13 
1/3 1/3。 

。 为 了 评估 一 个 ParamMap，CrossValidator 会 
计算 这 3 3 3 个 不 同 的 《〈 训练 , 测试 ) 数据 集 
对 在 Estimator 拟 合 出 的 模型 上 的 平均 评估 指 
标 。 

。 在 找 出 最 好 的 ParamMap 后 ，CrossValidator 
会 使 用 这 个 ParamMap 和 整个 的 数据 集 来 重 
新 拟 合 Estimator。 


也 就 是 说 ， 通 过 交叉 验证 找到 最 佳 的 ParamMap ， 
利用 此 ParamMap 在 整个 训练 集 上 可 以 训练 (fit ) 
出 一 个 泛 化 能 力 强 ， 误 差 相 对 小 的 的 最 佳 模型 。 


交叉 验证 的 代价 比较 高 晶 ， 为 此 Spark 也 为 超 参 数 
调 优 提供 了 训练 -验证 切 分 TrainValidationSplit。 


。 TrainValidationSplit 创建 单一 的 “〈 训练, 测 
试 ) 数据 集 对 。 

。 它 使 用 trainRatio 参数 将 数据 集 切 分 成 两 部 
分 。 例 如 ， 当 设置 trainRatio=0.75 


trainRatio=0.75 trainRatio=0.75 时 ， 
TrainValidationSplit 将 会 将 数据 切 分 75 % 75' 
% 75% 作为 数据 集 ，25 % 25\% 25% 作为 验 
证 集 ， 来 生成 训练 、 测 试 集 对 ， 并 最 终 使 用 最 
好 的 ParamMap 和 完整 的 数据 集 来 拟 合 评估 


口 品 
二 
口 口 o 


相对 于 CrossValidator 对 每 一 个 参数 进行 KK K 次 
评估 ，TrainValidationSplit 只 对 每 个 参数 组 合 评估 


111 次 


。 所 以 评估 代价 较 低 
。 但 是 ， 当 训练 效 据 集 不 够 大 的 时 候 其 结果 相对 


不 够 可 信 


于 开局 前 二 记 交 有 可 K 
于 DIS 人 
于 OnE PSPa 攻 
下 芋 四 贡 下 作文 全 世间 了 K 
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import Pipeline 


CGISS Ge aenGnmDO 攻 大 帮 OOaib 七 CRES 


ENVaiuateoon mo 有 训 JTaiYGHRSS1LEIL 


feature import HashingTE，TokeniIL 


六 二 大 于 矶 台 人 和 Case OOaepr，Pa 


Sql import SparkSession 


SPDark = SparkSessionN 


同人 辣 攻 e[=NSN 


.apPName ("CrossValidatorExamplLle") 


.GetOrCreate () 


# S$example ons 

# Prepare training qdqocuments，which are Labeled. 

二 raining = SPark.createDataFrame ([ 
人 
人 eyeodwe 芭 这 
人 
人 
人 
(有 
和 
人 
人 
ER Se OO 生 
让 全 全 生 计生 请 三 区 人 放 人 
人 

CS 人 全 seo 证 忆 证 国 


# Confidgdure an ML PipelLline， which consistsl of 七 t 


七 OKenizer = Tokenizer (InPputCol="text"， outpPutCol: 


hashingTITE = HashingTITE (InputCol=tokenizer.getoOoutP: 
LE = LogisticRegression (maxILe=10) 


Pipeline = Pipeline(stages=[tokenizer，hashingTIEF 


# We now treat the Pipeline as an ESstimator，，， WEa 
蓝 汪 是 用 5 三 司 二 ONEUS 王 EECOITEIRECnooSssDaRpnmete 
# 有 A CrossValidqator redquires an ESstimator，， aa set 


# We use a ParamGridqBuilder to construct al dg9rid 


# With 3 Values for hashingTE .numFeatures anad 2 : 
# this Grid will have 3 2 = 6 Parameter settin 
ParamGrid = ParamGridqBuildqer() 和 

.addGrid (hashingTE .numEeatures， [10，100，10 

gaGcranucseeogEarcsmaaIORLROS ODN 

it) 


Crossval = CrossValidator (estimator=pPipelLineyv 
estimatorParamMaps=Pat， 
evValLuator=BinaryC1lLassiIL 


numEolLlds=2) # Use 3+ 


# Run cross-valLlidqation，，， anad choose the best set 


CVModel = crossvalL .fit(traininagy) 


# Prepare test aqocuments，which are unlabeled. 
test = SParKk.CcreateDataFrame ([ 

全 人 人 这 机 人) 和 

(和 

(6， "mapreduce SPark") ， 

二 人 eesnadqcoe 和 二 
| 


井 Make Predadictions on test Qqocuments . CVMoQe1l us 
Prediction = CVModel .transftorm (test) 

Selected = Prediction.select ("id"， "七 exXt" "Propb 
for row in Selectedq.collect () : 


仿生 王 站 丰 下 下 全 W) 


Samkesteopea 人 (全 
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。 图 解 大 数据 | 分 布 式 平台 Hadoop 与 Map- 
Reduce 详 解 

。 图解 大 数据 | Hadoop 系 统 搭建 与 环境 配置 @ 实 
操 案 例 

。 图解 大 数据 | 应 用 Map-Reduce 进 行 大 数据 统 
计 Q@ 实 操 案 例 

。 图 解 大 数据 | Hive 搭 建 与 应 用 @ 实 操 案例 

。 图解 大 数据 | Hive 与 HBase 详 解 @ 海 量 数据 库 
查询 

。 图解 大 数据 | 大 数据 分 析 挖 掘 框架 @Spark 初 
乡 

。 图解 大 数据 | 基于 RDD 大 数据 处 理 分 析 
@Spark 操 作 

。 图解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
分 析 @Spark 操 作 

。 图 解 大 数据 | 使 用 Spark 分 析 新 冠 肺炎 疫情 数据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 零售 交 易 数 据 
@ 综 合 案例 

。 图解 大 数据 | 使 用 Spark 分 析 挖 掘 音 乐 专辑 数据 
@ 综 合 案例 

。 图解 大 数据 | Spark Streaming @ 流 式 数 据 处 
旬 


。 图 解 大 数据 | 工作 流 与 特征 工程 @Spark 机 器 
学 习 

。 图 解 大 数据 | 建 模 与 超 参 调 优 @Spark 机 器 学 
习 

。 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
析 挖 掘 


。 大 厂 技术 实现 : 推荐 与 广告 计算 解决 方案 

。 大 上 厂 技术 实现 : 计算 机 视觉 解决 方案 

。 大 上 厂 技术 实现 : 自然 语言 处 理 行业 解决 方案 

。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数 学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 

。 机 器 学 习 实 战 : 手把手 教 你 玩 转机 器 学 习 系 列 

。 这 度 学 习 教 程 : 吴 恩 达 专 项 课程 . 全 套 笔 记 解 
读 

。 自然 语言 处 理 教程 : 斯 坦 福 CS224n 课 程 . 课 
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图 解 大 效 据 | Spark 
GraphFrames- 基 于 图 的 数据 
分 析 挖 掘 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123366277 


ShowMeAl ”国人 


研 究 中 时 国 几 sa 国 xs 本国 sn 谭 国 站. 不 


作者 : 韩信 子 @[ShowMeAl]jhttp:/ 
www.Showmeai.techy/) 
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收藏 ShowMeAI 查 看 更 多 精彩 内 容 


1.GraphFrames 介 绍 


由 Databricks、UC Berkeley 以 及 MIT 联 合 为 Apache 
Spark 开 发 了 一 款 图 处 理 类 库 ， 名 为 
GraphFrames。 该 类 库 构 建 在 DataFrame 之 上 ， 既 
能 利用 DataFrame 良 好 的 扩展 性 和 强大 的 性 能 ， 同 
时 也 为 Scala、Java 和 Python 提供 了 统一 的 图 处 理 
API|。 


1) Spark 对 图 计算 的 支持 


Spark 从 最 开始 的 关系 型 数据 查询 ， 到 图 算法 实 
现 ， 到 GraphFrames 库 可 以 完成 图 查询 。 


GraphFrames 介 绍 


2 ) GraphFrames 的 优势 


GraphFrames 是 类 似 于 Spark 的 GraphX 库 ， 支 持 图 


处 理 。 但 GraphFrames 建 立 在 Spark DataFrame 之 
上 ， 具 有 以 下 重要 的 优势 : 


。 支持 Scala ,Java 和 Python AP : 
GraphFrames 提 供 统一 的 三 种 编程 语言 APls ， 
而 GraphX 的 所 有 算法 支持 Python 和 Javae 


。 方便、 简单 的 图 查询 : GraphFrames 人 允许 用 户 
使 用 Spark SQL 和 DataFrame 的 API 查 询 。 


。 支持 导出 和 导入 图 : GraphFrames 支 持 
DataFrame 数 据 源 ， 使 得 可 以 读 取 和 写 入 多 种 
格式 的 图 ,比如 Parquet、JSON 和 CSV 格 式 。 


2. 构 建 GraphFrames 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


以 航班 分 析 为 例 ， 我 们 需要 构建 GraphFrames : 


。 @ 先 把 数据 读 取 成 DataFrame。 


通过 DataFrame 查 询 ， 构 建 出 点 和 边 。 
通过 点 和 边 构 建 GraphFrames。 


构建 GraphFrames 


tripEdges) 


中 http:Wwww.showmeaitechy 


# Create Vertices (airports) anq Edges (flLights) 
廿 YIPVertices=airports.withcolumnRenamed ("IATA"，" 


上 zipPpEdges=QqepartureDelays 


EECEY_ ds. 


# This GraphFErame builds upon the Vertices anad e 


七 YIPGraph=GraphErame (ripPpVertices，，tripEdges ) 
3. 简 单 query 与 数据 分 析 


1) 得 询 机 场 个 效 和 行程 个 数 


简单 query 与 数据 分 析 


Airports: 279 
Trips: 1361141 


搜索 | 微 信 ShowMeAl 研 究 中 心 
GE httpywwwshowmeaitechy 


# 查询 机 场 个 数 和 行程 个 数 (查询 节点 和 边 的 个 数 ) 
站 EN 让 OOTSRO ET 全 “abDhEVXEreces Counr () ) 


伺 二 二 矶 (人 工 芝 工 攻 SPOCREaphneaoes coont 


2 ) 但 询 最 长 的 航班 延迟 


简单 query 与 数据 分 析 国 ， 碍 刘 二 ER 


longestDelay 


要 索 | 微 售 ShowMeAl 研 究 中 心 ] 


中 http/www.showmeaitechy 


# 查询 最 长 延误 时 间 ( 通过 分 组 统计 完成 ) 
LongestDelay = tripGraph.edges.g9roupby () .max(n"de 


3 ) 晚点 与 准点 航班 分 析 


简单 query 与 数据 分 析 


On-time / EarLy FLights: 780469 
DetLayed FLights: 580672 


搜索 | 微 信 ShowMeAl 研究 中 心 | 
中 http:Wwww.showmeaitechy 


# 晚点 与 准点 航班 分 析 ( 通过 数据 选择 与 过 滤 ， 进 行 边 的 分 析 ) 
roomncnnme 要 人 秆 Esc RINGOnES GE EECTEBBrapn . 
PEint "Delayedq ELights: Sg%q" 名 廿 ipGraph.edqges .fi 


4 ) 从 旧金山 出 发 的 飞机 中 延迟 最 严重 
的 航班 


简单 query 与 数据 分 析 


# 从 旧金山 出 发 的 飞机 中 延迟 最 严重 的 航班 
tripGraph,.edges 
(< 


SEO delay 
CSPE SEE 

(cdelay2”) 

( (“avg(delay)”) ) 


DataFrame[src: string，dst: string，avg(deLay) : doubtLe] 


要 索 | 短信 ShowMenl 研究 中 心 


中 httpwww.showmeaitechy 


# 从 旧金山 出 发 的 飞机 中 延迟 最 严重 的 航班 〈 数据 选择 + 边 分 析 + 


七 IPGraph.edges .filter( src =  、\SEFEO” and adqelLay > 


4. 图 中 点 与 边 相 天 计算 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 


blog.showmeai.tech/python3-compiler 


1) 图 中 度 的 分 析 


在 航班 案例 中 : 入 度 : 抵达 本 机 场 的 航班 数量 ; 出 
度 : 从 本 机 场 出 发 的 航班 数量 ; 度 : 连接 数量 。 


全 


图 中 点 与 边 相 关 计 算 


人 要案 | 微 售 ShowhMeAl 研 究 中 心 


QqisplLlay(tripGraph.dqedgdrees.sort (qesc("dqedree") ) . 工 


2 ) 图 中 边 的 分 析 
边 的 分 析 ， 通 常 是 对 成 对 的 数据 进行 统计 分 析 的 


图 中 点 与 边 相 关 计 算 


K.sq1.functions as func 
s 人 Gral Se sren，vdsteJ N 
(fu elay 158 卫 : 


搜索 | 微 信 She wMeni 研 究 中 心 | 


mo ankR Sci AUneeoOns 呈 as 二 人 nnC 


ECGenecsE=eEGESCnhREeSes ccoueB src | dst") 


5. 图 入 度 与 出 度 相 天 应 用 


。 获取 数据 集 与 代码 一 ShowMeAI 的 官方 
GitHub https:V/github.com/ShowMeAlI-Hub/ 
awesome-Al-cheatsheets 

。 运行 代码 段 与 学 习 一 在 线 编程 环境 http:/ 
blog.showmeai.tech/python3-compiler 


1) 入 度 出 度 对 图 进一步 分 析 


过 入 度 和 出 度 分 析 中 转 站 : 入 度 /出 度 =1， 中 转 
; 入 度 / 出 度 >1， 出 发 站 ; 入 度 / 出 度 <1， 抵 达 
站 。 


图 入 度 与 出 度 相关 应 用 全 让 
(oi 


List o cit 
(nonTransferAirpol 


中 http:Wwww.showmeaitechy 


| 
| 呆 
名 
习 
- 
图 入 度 与 出 度 相 关 应 用 呈 
订 City degreeRatio 
己 
BRw amow aazetateaeaazsbta5 测 
GFK Grand Forks 1.3333333333333333 
FAI Fairbanks 1.1232686980609419 
DME Nome 0.5084745762711864 


和 搜索 | 微 信 ShowMeAl 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


# Calculate the inDeg (flights into the airport) 
inDedg = 七 ipPGraph.inDedgdrees 


outDed = 革 zipGraph.outDedrees 


# Calculate the qdqegdreeRatio (inDed/outDed) 


QqedreeRatio = inDed.join(outDed，inDed.idq == oOUt 


# Join back to the “airports ”DataFrame (instead 
nonTransferAirports = QegreeRatio.join (airpPportsy， 


.SelectExpPr ("1id"，"city" "degreeRatio") .fil 


井 List out the city airports which have abnormal 


display (nonTransfterAirPorts) 


CD # he “airpoal stead of registering temp table as abovey 
几 Ratio.id == airports.IATA) 
it 


图 入 度 与 出 度 相关 应 用 


中 http:Wwww.showmeaitechy 


# Join back to the “airports ”DataFrame (instead 
廿 ansferAirports = QegreeRatio.join (airports，，， dae 


SELLECLEPCILO LO CE OOcoceeRatuc) .fill 


北 夺 让 ss 蕊 本 CE 世 IE 记忆 记 生 下 OSIESET 三 CE ES S 


Qisplay(transferAirports.orderBy ( "aqaedreeRatio") . 


2 ) 三 度 优先 搜 款 


通过 广度 优先 搜索 ， 可 以 对 图 中 的 两 个 点 进行 天 联 
查询 : 比如 我 们 查询 从 旧金山 到 布 法 罗 ， 中 间 有 一 
次 中 转 的 航班 。 


图 入 度 与 出 度 相关 应 用 


(filteredpPaths) 


油 信 ShowMeAl 研 究 中心 


中 http/www.showmeaitechy 


图 入 度 与 出 度 相 关 应 用 


站 有 wy 有 人 ie 人 AT 


微 信 ShowMeA1 研 究 中 心 ] 


中 httpWwww.showmeaitechy 


# 也 xample 1: Direct Seattle to San Erancisco 


flLteredqPaths = 七 YIPGraph.bfs (EcomExpPz = "id = ) 
display(filteredqPaths) 


井 了 Example 2: Direct San Francisco andq Buffalo 
filteredqPaths = 七 YIPGraph.bfs (fromExPr = "id = 
display (filteredqPaths) 


非 醒 卫 广 和 记 二 全 2 本 omSanmRanmemsCSEEC| Buftfta 
filLteredqPaths = 七 YIPGraph.bfs (EcomExpPpz = "id = ) 
QisPplay(filteredqPaths) 


6.Pagerank 算 法 与 相 天 应 用 


可 以 通过 pagerank 算 法 进行 机 场 排序 : 每 个 机 场 都 
会 作为 始 发 站 和 终点 站 很 多 次 ， 可 以 通过 pagerank 
算法 对 其 重要 度 进行 排序 。 


Pagerank 算 法 应 用 


搜索 | 微 信 ShowMeAI 研 究 中心 


# Detetrmining Airport ranking of importance Usin 
zanks = 七 1IPGraph.PageRank (esetProbapbility=0.15 


dispPplay (anks.vetrtices.orderBy (zanks.Vertices .Pa 


7. 参 考 资料 


数据 科学 工具 速 查 | Spark 使 用 指南 (RDD 版 ) 
http:/www.showmeai.tech/article-detail/106 
数据 科学 工具 速 查 | Spark 使 用 指南 (SQL 版) 
http:/www.showmeai.techyarticle-detail/107 
SparkGraphx 官 方 文 档 ，http:/ 
spark.apachecn.org/docs/cn/2.2.0/graphx- 


programming-guide.html 
。 pregel 与 spark graphX 的 pregel api : https:/ 
blog.csdn.net/u013468917Z/article/ 
details/51199808 
浅 谈 GraphX : https:Wblog.csdn.net/ 


shangwen_ yarticle/details/38645601 
。 SparkGraphX 介 绍 : https:Wblog.csdn.net/ 
oandqoang/article/details/79559223 
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。 图解 大 数据 | 基于 Dataframe / SQL 大 数据 处 理 
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。 图 解 大 数据 | GraphFrames @ 基 于 图 的 数据 分 
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